Demis Hassabis創(chuàng)立了DeepMind的目標(biāo)是通過(guò)重新創(chuàng)建情報(bào)本身來(lái)解鎖一些世界上最棘手的問(wèn)題的答案。他的野心仍然只是雄心勃勃,但是哈薩比斯和他的同事們?cè)诒局軐?shí)現(xiàn)這一目標(biāo)的步伐越來(lái)越近,在《自然 》雜志上發(fā)表了論文,解決了生物醫(yī)學(xué)面臨的兩個(gè)巨大挑戰(zhàn)。
第一篇論文起源于DeepMind的神經(jīng)科學(xué)團(tuán)隊(duì),提出了AI研究的發(fā)展可以作為理解大腦如何學(xué)習(xí)的框架的觀點(diǎn)。另一篇論文側(cè)重于DeepMind在蛋白質(zhì)折疊方面的工作-該工作于2018年12月進(jìn)行了詳細(xì)介紹。這兩篇論文均緊隨DeepMind在將AI用于預(yù)測(cè)急性腎損傷或AKI以及挑戰(zhàn)性游戲環(huán)境等方面的工作之后。進(jìn)行圍棋,將棋,象棋,數(shù)十種Atari游戲以及Activision Blizzard的StarCraft II。
哈薩比斯說(shuō):“很高興看到我們?cè)赱機(jī)器學(xué)習(xí)]中的研究如何指向?qū)Υ竽X中起作用的學(xué)習(xí)機(jī)制的新理解。” “ [另外,了解]蛋白質(zhì)如何折疊是一個(gè)長(zhǎng)期存在的基本科學(xué)問(wèn)題,有朝一日可能成為解鎖針對(duì)各種疾病的新療法的關(guān)鍵,從阿爾茨海默氏癥和帕金森氏癥到囊性纖維化和亨廷頓氏癥,人們都認(rèn)為錯(cuò)折疊的蛋白質(zhì)會(huì)扮演一個(gè)角色。”
在有關(guān)多巴胺的論文中,來(lái)自DeepMind和哈佛大學(xué)的團(tuán)隊(duì)研究了大腦是否代表了未來(lái)可能的回報(bào),而不是作為一個(gè)單一的平均值,而是作為一個(gè)概率分布,該數(shù)學(xué)函數(shù)提供了發(fā)生不同結(jié)果的可能性。他們從小鼠腹側(cè)被蓋區(qū)域(控制多巴胺向邊緣和皮質(zhì)區(qū)域釋放的中腦結(jié)構(gòu))的錄音中發(fā)現(xiàn)了“ 分布強(qiáng)化學(xué)習(xí) ”的證據(jù)。有證據(jù)表明,獎(jiǎng)勵(lì)預(yù)測(cè)是同時(shí)并行地由多個(gè)未來(lái)結(jié)果表示的。
人工智能系統(tǒng)模仿人類生物學(xué)的想法并不新鮮。荷蘭拉德布德大學(xué)研究人員進(jìn)行的一項(xiàng)研究發(fā)現(xiàn),遞歸神經(jīng)網(wǎng)絡(luò)(RNN)可以預(yù)測(cè)人腦如何處理感官信息,特別是視覺(jué)刺激。但是,在大多數(shù)情況下,這些發(fā)現(xiàn)為機(jī)器學(xué)習(xí)提供了信息,而不是神經(jīng)科學(xué)研究。
2017年,DeepMind通過(guò)模仿前額葉皮層行為的AI算法和發(fā)揮海馬作用的“記憶”網(wǎng)絡(luò)構(gòu)建了人腦的解剖模型,從而使該系統(tǒng)的性能大大優(yōu)于大多數(shù)機(jī)器學(xué)習(xí)模型架構(gòu)。最近,DeepMind將注意力轉(zhuǎn)向了理性機(jī)器,產(chǎn)生了能夠?qū)㈩惾送评砟芰瓦壿嫅?yīng)用于解決問(wèn)題的合成神經(jīng)網(wǎng)絡(luò)。在2018年,DeepMind的研究人員進(jìn)行了一項(xiàng)實(shí)驗(yàn),表明前額葉皮層并不像過(guò)去那樣依賴突觸權(quán)重變化來(lái)學(xué)習(xí)規(guī)則結(jié)構(gòu),而是使用直接在多巴胺中編碼的基于抽象模型的信息。
強(qiáng)化學(xué)習(xí)涉及僅使用獎(jiǎng)勵(lì)和懲罰作為教學(xué)信號(hào)來(lái)學(xué)習(xí)行為的算法。獎(jiǎng)勵(lì)或多或少地增強(qiáng)了導(dǎo)致其獲得的任何行為。
正如研究人員指出的那樣,解決問(wèn)題需要了解當(dāng)前的行動(dòng)如何帶來(lái)未來(lái)的回報(bào)。這就是時(shí)差學(xué)習(xí)(TD)算法出現(xiàn)的地方-他們?cè)噲D預(yù)測(cè)即時(shí)獎(jiǎng)勵(lì)以及在下一個(gè)時(shí)刻自己的獎(jiǎng)勵(lì)預(yù)測(cè)。當(dāng)這帶來(lái)更多信息時(shí),算法會(huì)將新的預(yù)測(cè)與預(yù)期的進(jìn)行比較。如果兩者不同,則使用此“時(shí)間差異”將舊的預(yù)測(cè)調(diào)整為新的預(yù)測(cè),以使鏈條變得更加準(zhǔn)確。
強(qiáng)化學(xué)習(xí)技術(shù)已隨著時(shí)間的流逝而得到改進(jìn),以提高培訓(xùn)的效率,最近開(kāi)發(fā)的一種技術(shù)稱為
由特定動(dòng)作產(chǎn)生的未來(lái)獎(jiǎng)勵(lì)的數(shù)量通常不是已知數(shù)量,而是涉及一些隨機(jī)性。在這種情況下,標(biāo)準(zhǔn)的TD算法會(huì)學(xué)會(huì)預(yù)測(cè)平均會(huì)收到的未來(lái)獎(jiǎng)勵(lì),而分布式強(qiáng)化算法會(huì)預(yù)測(cè)整個(gè)獎(jiǎng)勵(lì)范圍。
這與動(dòng)物大腦中多巴胺神經(jīng)元的功能無(wú)異。一些神經(jīng)元表示獎(jiǎng)勵(lì)預(yù)測(cè)錯(cuò)誤,這意味著它們?cè)谑盏奖阮A(yù)期更多或更少的獎(jiǎng)勵(lì)時(shí)會(huì)觸發(fā)(即發(fā)送電信號(hào))。這就是所謂的獎(jiǎng)勵(lì)預(yù)測(cè)誤差理論-計(jì)算獎(jiǎng)勵(lì)預(yù)測(cè)誤差,通過(guò)多巴胺信號(hào)將其傳播到大腦,并用于驅(qū)動(dòng)學(xué)習(xí)。
分布強(qiáng)化學(xué)習(xí)擴(kuò)展了多巴胺的典范獎(jiǎng)勵(lì)預(yù)測(cè)誤差理論。以前曾有人認(rèn)為,獎(jiǎng)勵(lì)預(yù)測(cè)僅表示為一個(gè)數(shù)量,支持對(duì)隨機(jī)(即,隨機(jī)確定)結(jié)果的平均值(或平均值)的了解,但是這項(xiàng)工作表明大腦實(shí)際上考慮了多種預(yù)測(cè)。DeepMind研究科學(xué)家Zeb Kurth-Nelson說(shuō):“在大腦中,強(qiáng)化學(xué)習(xí)是由多巴胺驅(qū)動(dòng)的。” “我們?cè)?hellip;…論文中發(fā)現(xiàn),每個(gè)多巴胺細(xì)胞都經(jīng)過(guò)了特殊的調(diào)整,可以使細(xì)胞群以前所未有的方式非常有效地重新布線這些神經(jīng)網(wǎng)絡(luò)。”
最簡(jiǎn)單的分布增強(qiáng)算法之一-分布TD-假定基于獎(jiǎng)勵(lì)的學(xué)習(xí)受獎(jiǎng)勵(lì)預(yù)測(cè)錯(cuò)誤驅(qū)動(dòng),該錯(cuò)誤會(huì)發(fā)出已接收到的獎(jiǎng)勵(lì)和預(yù)期獎(jiǎng)勵(lì)之間的差異。但是,與傳統(tǒng)的強(qiáng)化學(xué)習(xí)相反,在這種預(yù)測(cè)中,預(yù)測(cè)被表示為一個(gè)單一的數(shù)量(即所有潛在結(jié)果的平均值,以其概率加權(quán)),而分布強(qiáng)化則使用了幾種預(yù)測(cè),這些預(yù)測(cè)對(duì)即將來(lái)臨的獎(jiǎng)勵(lì)的樂(lè)觀程度各不相同。
分布式TD算法通過(guò)計(jì)算描述連續(xù)預(yù)測(cè)之間差異的預(yù)測(cè)誤差來(lái)學(xué)習(xí)這組預(yù)測(cè)。內(nèi)部的一組預(yù)測(cè)變量將不同的變換應(yīng)用于其各自的獎(jiǎng)勵(lì)預(yù)測(cè)錯(cuò)誤,從而使某些預(yù)測(cè)變量有選擇地“放大”或“超重”其獎(jiǎng)勵(lì)錯(cuò)誤。當(dāng)獎(jiǎng)勵(lì)預(yù)測(cè)誤差為正時(shí),某些預(yù)測(cè)器會(huì)學(xué)習(xí)到對(duì)應(yīng)于分布的較高部分的更樂(lè)觀的獎(jiǎng)勵(lì),而當(dāng)獎(jiǎng)勵(lì)預(yù)測(cè)為負(fù)時(shí),他們將學(xué)習(xí)更多的悲觀預(yù)測(cè)。這就導(dǎo)致了悲觀或樂(lè)觀價(jià)值估計(jì)的多樣性,這些估計(jì)捕獲了獎(jiǎng)勵(lì)的全部分配。
“在過(guò)去的三十年中,我們?cè)贏I中最好的強(qiáng)化學(xué)習(xí)模型…幾乎完全專注于學(xué)習(xí)以預(yù)測(cè)未來(lái)的平均回報(bào)。但這并不能反映現(xiàn)實(shí)生活。” DeepMind研究科學(xué)家Will Dabney說(shuō)。“ [實(shí)際上有可能]時(shí)刻預(yù)測(cè)獎(jiǎng)勵(lì)成果的整個(gè)分布。”
分布式強(qiáng)化學(xué)習(xí)的執(zhí)行很簡(jiǎn)單,但是與機(jī)器學(xué)習(xí)系統(tǒng)一起使用時(shí)非常有效-它可以將性能提高兩倍或更多。那可能是因?yàn)榱私猹?jiǎng)勵(lì)的分配會(huì)給系統(tǒng)提供一個(gè)更強(qiáng)大的信號(hào),以塑造其表
分布式學(xué)習(xí)與多巴胺
然后,該研究試圖確定大腦是否使用某種形式的分布TD。研究小組分析了11只小鼠在執(zhí)行刺激任務(wù)時(shí)制作的多巴胺細(xì)胞的記錄。五只老鼠接受了概率可變的任務(wù)訓(xùn)練,而六只接受了幅度可變的任務(wù)的訓(xùn)練。第一組暴露于四種隨機(jī)氣味中的一種,然后噴水,吹氣或什么也沒(méi)有。(第一種氣味表示獲得獎(jiǎng)勵(lì)的機(jī)會(huì)為90%,第二種,第三種和第四種氣味表示獲得獎(jiǎng)勵(lì)的機(jī)會(huì)分別為50%,10%和90%。)
多巴胺細(xì)胞改變發(fā)射速率以指示預(yù)測(cè)誤差,這意味著當(dāng)收到的獎(jiǎng)勵(lì)恰好是細(xì)胞預(yù)測(cè)的確切大小時(shí),預(yù)測(cè)誤差應(yīng)該為零。考慮到這一點(diǎn),研究人員確定了每個(gè)細(xì)胞的反轉(zhuǎn)點(diǎn)-多巴胺細(xì)胞不會(huì)改變其發(fā)射速率的獎(jiǎng)勵(lì)大小-并比較了它們是否存在差異。
他們發(fā)現(xiàn),某些單元格預(yù)測(cè)了大量的獎(jiǎng)勵(lì),而另一些單元格則預(yù)測(cè)了很少的獎(jiǎng)勵(lì),遠(yuǎn)遠(yuǎn)超出了可變性可能帶來(lái)的差異。他們?cè)跍y(cè)量了不同細(xì)胞展現(xiàn)出陽(yáng)性預(yù)期和陰性預(yù)期的擴(kuò)增程度之后,再次看到了多樣性。他們觀察到,放大其陽(yáng)性預(yù)測(cè)誤差的相同細(xì)胞具有更高的逆轉(zhuǎn)點(diǎn),表明它們已被調(diào)整以期望更高的獎(jiǎng)勵(lì)量。
在最后的實(shí)驗(yàn)中,研究人員試圖從多巴胺細(xì)胞的發(fā)射速率中解碼獎(jiǎng)勵(lì)分布。他們報(bào)告了成功:通過(guò)推理,他們?cè)O(shè)法重建了與老鼠從事的任務(wù)中的實(shí)際獎(jiǎng)勵(lì)分配相匹配的分配。
“在研究來(lái)自AI的思想的過(guò)程中,很容易將注意力集中在從AI到神經(jīng)科學(xué)的思想流中。但是,我們認(rèn)為結(jié)果對(duì)于AI同樣重要。” DeepMind神經(jīng)科學(xué)研究主任Matt Botvinick說(shuō)。“當(dāng)我們能夠證明大腦采用了我們?cè)贏I工作中所使用的算法時(shí),就增強(qiáng)了我們的信心,即這些算法從長(zhǎng)遠(yuǎn)來(lái)看將是有用的-它們可以很好地?cái)U(kuò)展到復(fù)雜的現(xiàn)實(shí)世界中,與其他計(jì)算過(guò)程的接口很好。其中涉及一種驗(yàn)證:如果大腦正在做,那可能是個(gè)好主意。”
蛋白質(zhì)折疊
兩篇論文的第二篇詳細(xì)介紹了DeepMind在蛋白質(zhì)折疊領(lǐng)域的工作,這項(xiàng)工作始于兩年前。正如研究人員所指出的那樣,預(yù)測(cè)蛋白質(zhì)形狀的能力是了解蛋白質(zhì)如何在體內(nèi)發(fā)揮作用的基礎(chǔ)。這不僅對(duì)健康有影響,而且可以幫助應(yīng)對(duì)許多社會(huì)挑戰(zhàn),例如管理污染物和減少?gòu)U物。
蛋白質(zhì)的配方(由氨基酸組成的大分子組成,氨基酸是組織,肌肉,頭發(fā),酶,抗體和其他生物的基本組成部分的基本組成部分)在DNA中編碼。這些遺傳定義界定了它們的三維結(jié)構(gòu),從而決定了它們的功能。例如,抗體蛋白質(zhì)的形狀像“ Y”形,使它們能夠鎖定在病毒和細(xì)菌上,而膠原蛋白的形狀像繩索,在軟骨,骨骼,皮膚和韌帶之間傳遞張力。
Demis Hassabis創(chuàng)立了DeepMind的目標(biāo)是通過(guò)重新創(chuàng)建情報(bào)本身來(lái)解鎖一些世界上最棘手的問(wèn)題的答案。他的野心仍然只是雄心勃勃,但是哈薩比斯和他的同事們?cè)诒局軐?shí)現(xiàn)這一目標(biāo)的步伐越來(lái)越近,在《自然 》雜志上發(fā)表了論文,解決了生物醫(yī)學(xué)面臨的兩個(gè)巨大挑戰(zhàn)。
第一篇論文起源于DeepMind的神經(jīng)科學(xué)團(tuán)隊(duì),提出了AI研究的發(fā)展可以作為理解大腦如何學(xué)習(xí)的框架的觀點(diǎn)。另一篇論文側(cè)重于DeepMind在蛋白質(zhì)折疊方面的工作-該工作于2018年12月進(jìn)行了詳細(xì)介紹。這兩篇論文均緊隨DeepMind在將AI用于預(yù)測(cè)急性腎損傷或AKI以及挑戰(zhàn)性游戲環(huán)境等方面的工作之后。進(jìn)行圍棋,將棋,象棋,數(shù)十種Atari游戲以及Activision Blizzard的StarCraft II。
哈薩比斯說(shuō):“很高興看到我們?cè)赱機(jī)器學(xué)習(xí)]中的研究如何指向?qū)Υ竽X中起作用的學(xué)習(xí)機(jī)制的新理解。” “ [另外,了解]蛋白質(zhì)如何折疊是一個(gè)長(zhǎng)期存在的基本科學(xué)問(wèn)題,有朝一日可能成為解鎖針對(duì)各種疾病的新療法的關(guān)鍵,從阿爾茨海默氏癥和帕金森氏癥到囊性纖維化和亨廷頓氏癥,人們都認(rèn)為錯(cuò)折疊的蛋白質(zhì)會(huì)扮演一個(gè)角色。”
在有關(guān)多巴胺的論文中,來(lái)自DeepMind和哈佛大學(xué)的團(tuán)隊(duì)研究了大腦是否代表了未來(lái)可能的回報(bào),而不是作為一個(gè)單一的平均值,而是作為一個(gè)概率分布,該數(shù)學(xué)函數(shù)提供了發(fā)生不同結(jié)果的可能性。他們從小鼠腹側(cè)被蓋區(qū)域(控制多巴胺向邊緣和皮質(zhì)區(qū)域釋放的中腦結(jié)構(gòu))的錄音中發(fā)現(xiàn)了“ 分布強(qiáng)化學(xué)習(xí) ”的證據(jù)。有證據(jù)表明,獎(jiǎng)勵(lì)預(yù)測(cè)是同時(shí)并行地由多個(gè)未來(lái)結(jié)果表示的。
人工智能系統(tǒng)模仿人類生物學(xué)的想法并不新鮮。荷蘭拉德布德大學(xué)研究人員進(jìn)行的一項(xiàng)研究發(fā)現(xiàn),遞歸神經(jīng)網(wǎng)絡(luò)(RNN)可以預(yù)測(cè)人腦如何處理感官信息,特別是視覺(jué)刺激。但是,在大多數(shù)情況下,這些發(fā)現(xiàn)為機(jī)器學(xué)習(xí)提供了信息,而不是神經(jīng)科學(xué)研究。
2017年,DeepMind通過(guò)模仿前額葉皮層行為的AI算法和發(fā)揮海馬作用的“記憶”網(wǎng)絡(luò)構(gòu)建了人腦的解剖模型,從而使該系統(tǒng)的性能大大優(yōu)于大多數(shù)機(jī)器學(xué)習(xí)模型架構(gòu)。最近,DeepMind將注意力轉(zhuǎn)向了理性機(jī)器,產(chǎn)生了能夠?qū)㈩惾送评砟芰瓦壿嫅?yīng)用于解決問(wèn)題的合成神經(jīng)網(wǎng)絡(luò)。在2018年,DeepMind的研究人員進(jìn)行了一項(xiàng)實(shí)驗(yàn),表明前額葉皮層并不像過(guò)去那樣依賴突觸權(quán)重變化來(lái)學(xué)習(xí)規(guī)則結(jié)構(gòu),而是使用直接在多巴胺中編碼的基于抽象模型的信息。
強(qiáng)化學(xué)習(xí)與神經(jīng)元
強(qiáng)化學(xué)習(xí)涉及僅使用獎(jiǎng)勵(lì)和懲罰作為教學(xué)信號(hào)來(lái)學(xué)習(xí)行為的算法。獎(jiǎng)勵(lì)或多或少地增強(qiáng)了導(dǎo)致其獲得的任何行為。
正如研究人員指出的那樣,解決問(wèn)題需要了解當(dāng)前的行動(dòng)如何帶來(lái)未來(lái)的回報(bào)。這就是時(shí)差學(xué)習(xí)(TD)算法出現(xiàn)的地方-他們?cè)噲D預(yù)測(cè)即時(shí)獎(jiǎng)勵(lì)以及在下一個(gè)時(shí)刻自己的獎(jiǎng)勵(lì)預(yù)測(cè)。當(dāng)這帶來(lái)更多信息時(shí),算法會(huì)將新的預(yù)測(cè)與預(yù)期的進(jìn)行比較。如果兩者不同,則使用此“時(shí)間差異”將舊的預(yù)測(cè)調(diào)整為新的預(yù)測(cè),以使鏈條變得更加準(zhǔn)確。
強(qiáng)化學(xué)習(xí)技術(shù)已隨著時(shí)間的流逝而得到改進(jìn),以提高培訓(xùn)的效率,最近開(kāi)發(fā)的一種技術(shù)稱為分布式強(qiáng)化學(xué)習(xí)。
分布強(qiáng)化學(xué)習(xí)
由特定動(dòng)作產(chǎn)生的未來(lái)獎(jiǎng)勵(lì)的數(shù)量通常不是已知數(shù)量,而是涉及一些隨機(jī)性。在這種情況下,標(biāo)準(zhǔn)的TD算法會(huì)學(xué)會(huì)預(yù)測(cè)平均會(huì)收到的未來(lái)獎(jiǎng)勵(lì),而分布式強(qiáng)化算法會(huì)預(yù)測(cè)整個(gè)獎(jiǎng)勵(lì)范圍。
這與動(dòng)物大腦中多巴胺神經(jīng)元的功能無(wú)異。一些神經(jīng)元表示獎(jiǎng)勵(lì)預(yù)測(cè)錯(cuò)誤,這意味著它們?cè)谑盏奖阮A(yù)期更多或更少的獎(jiǎng)勵(lì)時(shí)會(huì)觸發(fā)(即發(fā)送電信號(hào))。這就是所謂的獎(jiǎng)勵(lì)預(yù)測(cè)誤差理論-計(jì)算獎(jiǎng)勵(lì)預(yù)測(cè)誤差,通過(guò)多巴胺信號(hào)將其傳播到大腦,并用于驅(qū)動(dòng)學(xué)習(xí)。
分布強(qiáng)化學(xué)習(xí)擴(kuò)展了多巴胺的典范獎(jiǎng)勵(lì)預(yù)測(cè)誤差理論。以前曾有人認(rèn)為,獎(jiǎng)勵(lì)預(yù)測(cè)僅表示為一個(gè)數(shù)量,支持對(duì)隨機(jī)(即,隨機(jī)確定)結(jié)果的平均值(或平均值)的了解,但是這項(xiàng)工作表明大腦實(shí)際上考慮了多種預(yù)測(cè)。DeepMind研究科學(xué)家Zeb Kurth-Nelson說(shuō):“在大腦中,強(qiáng)化學(xué)習(xí)是由多巴胺驅(qū)動(dòng)的。” “我們?cè)?hellip;…論文中發(fā)現(xiàn),每個(gè)多巴胺細(xì)胞都經(jīng)過(guò)了特殊的調(diào)整,可以使細(xì)胞群以前所未有的方式非常有效地重新布線這些神經(jīng)網(wǎng)絡(luò)。”
最簡(jiǎn)單的分布增強(qiáng)算法之一-分布TD-假定基于獎(jiǎng)勵(lì)的學(xué)習(xí)受獎(jiǎng)勵(lì)預(yù)測(cè)錯(cuò)誤驅(qū)動(dòng),該錯(cuò)誤會(huì)發(fā)出已接收到的獎(jiǎng)勵(lì)和預(yù)期獎(jiǎng)勵(lì)之間的差異。但是,與傳統(tǒng)的強(qiáng)化學(xué)習(xí)相反,在這種預(yù)測(cè)中,預(yù)測(cè)被表示為一個(gè)單一的數(shù)量(即所有潛在結(jié)果的平均值,以其概率加權(quán)),而分布強(qiáng)化則使用了幾種預(yù)測(cè),這些預(yù)測(cè)對(duì)即將來(lái)臨的獎(jiǎng)勵(lì)的樂(lè)觀程度各不相同。
分布式TD算法通過(guò)計(jì)算描述連續(xù)預(yù)測(cè)之間差異的預(yù)測(cè)誤差來(lái)學(xué)習(xí)這組預(yù)測(cè)。內(nèi)部的一組預(yù)測(cè)變量將不同的變換應(yīng)用于其各自的獎(jiǎng)勵(lì)預(yù)測(cè)錯(cuò)誤,從而使某些預(yù)測(cè)變量有選擇地“放大”或“超重”其獎(jiǎng)勵(lì)錯(cuò)誤。當(dāng)獎(jiǎng)勵(lì)預(yù)測(cè)誤差為正時(shí),某些預(yù)測(cè)器會(huì)學(xué)習(xí)到對(duì)應(yīng)于分布的較高部分的更樂(lè)觀的獎(jiǎng)勵(lì),而當(dāng)獎(jiǎng)勵(lì)預(yù)測(cè)為負(fù)時(shí),他們將學(xué)習(xí)更多的悲觀預(yù)測(cè)。這就導(dǎo)致了悲觀或樂(lè)觀價(jià)值估計(jì)的多樣性,這些估計(jì)捕獲了獎(jiǎng)勵(lì)的全部分配。
我們可以根據(jù)其發(fā)射率來(lái)解碼獎(jiǎng)勵(lì)的分布?;疑幱皡^(qū)域是任務(wù)中遇到的獎(jiǎng)勵(lì)的真實(shí)分布。
“在過(guò)去的三十年中,我們?cè)贏I中最好的強(qiáng)化學(xué)習(xí)模型…幾乎完全專注于學(xué)習(xí)以預(yù)測(cè)未來(lái)的平均回報(bào)。但這并不能反映現(xiàn)實(shí)生活。” DeepMind研究科學(xué)家Will Dabney說(shuō)。“ [實(shí)際上有可能]時(shí)刻預(yù)測(cè)獎(jiǎng)勵(lì)成果的整個(gè)分布。”
分布式強(qiáng)化學(xué)習(xí)的執(zhí)行很簡(jiǎn)單,但是與機(jī)器學(xué)習(xí)系統(tǒng)一起使用時(shí)非常有效-它可以將性能提高兩倍或更多。那可能是因?yàn)榱私猹?jiǎng)勵(lì)的分配會(huì)給系統(tǒng)提供一個(gè)更強(qiáng)大的信號(hào),以塑造其表示形式,使其對(duì)環(huán)境或給定政策的變化更加穩(wěn)健。
分布式學(xué)習(xí)與多巴胺
然后,該研究試圖確定大腦是否使用某種形式的分布TD。研究小組分析了11只小鼠在執(zhí)行刺激任務(wù)時(shí)制作的多巴胺細(xì)胞的記錄。五只老鼠接受了概率可變的任務(wù)訓(xùn)練,而六只接受了幅度可變的任務(wù)的訓(xùn)練。第一組暴露于四種隨機(jī)氣味中的一種,然后噴水,吹氣或什么也沒(méi)有。(第一種氣味表示獲得獎(jiǎng)勵(lì)的機(jī)會(huì)為90%,第二種,第三種和第四種氣味表示獲得獎(jiǎng)勵(lì)的機(jī)會(huì)分別為50%,10%和90%。)
多巴胺細(xì)胞改變發(fā)射速率以指示預(yù)測(cè)誤差,這意味著當(dāng)收到的獎(jiǎng)勵(lì)恰好是細(xì)胞預(yù)測(cè)的確切大小時(shí),預(yù)測(cè)誤差應(yīng)該為零??紤]到這一點(diǎn),研究人員確定了每個(gè)細(xì)胞的反轉(zhuǎn)點(diǎn)-多巴胺細(xì)胞不會(huì)改變其發(fā)射速率的獎(jiǎng)勵(lì)大小-并比較了它們是否存在差異。
他們發(fā)現(xiàn),某些單元格預(yù)測(cè)了大量的獎(jiǎng)勵(lì),而另一些單元格則預(yù)測(cè)了很少的獎(jiǎng)勵(lì),遠(yuǎn)遠(yuǎn)超出了可變性可能帶來(lái)的差異。他們?cè)跍y(cè)量了不同細(xì)胞展現(xiàn)出陽(yáng)性預(yù)期和陰性預(yù)期的擴(kuò)增程度之后,再次看到了多樣性。他們觀察到,放大其陽(yáng)性預(yù)測(cè)誤差的相同細(xì)胞具有更高的逆轉(zhuǎn)點(diǎn),表明它們已被調(diào)整以期望更高的獎(jiǎng)勵(lì)量。
在最后的實(shí)驗(yàn)中,研究人員試圖從多巴胺細(xì)胞的發(fā)射速率中解碼獎(jiǎng)勵(lì)分布。他們報(bào)告了成功:通過(guò)推理,他們?cè)O(shè)法重建了與老鼠從事的任務(wù)中的實(shí)際獎(jiǎng)勵(lì)分配相匹配的分配。
“在研究來(lái)自AI的思想的過(guò)程中,很容易將注意力集中在從AI到神經(jīng)科學(xué)的思想流中。但是,我們認(rèn)為結(jié)果對(duì)于AI同樣重要。” DeepMind神經(jīng)科學(xué)研究主任Matt Botvinick說(shuō)。“當(dāng)我們能夠證明大腦采用了我們?cè)贏I工作中所使用的算法時(shí),就增強(qiáng)了我們的信心,即這些算法從長(zhǎng)遠(yuǎn)來(lái)看將是有用的-它們可以很好地?cái)U(kuò)展到復(fù)雜的現(xiàn)實(shí)世界中,與其他計(jì)算過(guò)程的接口很好。其中涉及一種驗(yàn)證:如果大腦正在做,那可能是個(gè)好主意。”
蛋白質(zhì)折疊
兩篇論文的第二篇詳細(xì)介紹了DeepMind在蛋白質(zhì)折疊領(lǐng)域的工作,這項(xiàng)工作始于兩年前。正如研究人員所指出的那樣,預(yù)測(cè)蛋白質(zhì)形狀的能力是了解蛋白質(zhì)如何在體內(nèi)發(fā)揮作用的基礎(chǔ)。這不僅對(duì)健康有影響,而且可以幫助應(yīng)對(duì)許多社會(huì)挑戰(zhàn),例如管理污染物和減少?gòu)U物。
蛋白質(zhì)的配方(由氨基酸組成的大分子組成,氨基酸是組織,肌肉,頭發(fā),酶,抗體和其他生物的基本組成部分的基本組成部分)在DNA中編碼。這些遺傳定義界定了它們的三維結(jié)構(gòu),從而決定了它們的功能。例如,抗體蛋白質(zhì)的形狀像“ Y”形,使它們能夠鎖定在病毒和細(xì)菌上,而膠原蛋白的形狀像繩索,在軟骨,骨骼,皮膚和韌帶之間傳遞張力。
但是眾所周知,很難在幾毫秒內(nèi)發(fā)生蛋白質(zhì)折疊。DNA僅包含有關(guān)氨基酸殘基鏈的信息,而不包含那些鏈的最終形式。實(shí)際上,科學(xué)家估計(jì),由于氨基酸之間相互作用的數(shù)量無(wú)法估量,要找出典型蛋白質(zhì)的所有可能構(gòu)型,然后再確定正確的結(jié)構(gòu),就需要花費(fèi)超過(guò)138億年的時(shí)間(這種現(xiàn)象被稱為列文塔爾悖論)。 。
因此,DeepMind團(tuán)隊(duì)率先采用了名為AlphaFold的機(jī)器學(xué)習(xí)系統(tǒng),而不是依靠常規(guī)方法來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),例如X射線晶體學(xué),核磁共振和低溫電子顯微鏡。它可以預(yù)測(cè)每對(duì)氨基酸之間的距離以及連接的化學(xué)鍵之間的扭轉(zhuǎn)角,將其合并為一個(gè)分?jǐn)?shù)。單獨(dú)的優(yōu)化步驟通過(guò)梯度下降(一種改進(jìn)結(jié)構(gòu)以更好地與預(yù)測(cè)匹配的數(shù)學(xué)方法)細(xì)化分?jǐn)?shù),使用所有距離的總和來(lái)估計(jì)擬議結(jié)構(gòu)與正確答案的接近程度。
迄今為止,最成功的蛋白質(zhì)折疊預(yù)測(cè)方法已經(jīng)利用了所謂的片段裝配,即通過(guò)采樣過(guò)程創(chuàng)建結(jié)構(gòu),從而最大程度地減少了來(lái)自蛋白質(zhì)數(shù)據(jù)庫(kù)中結(jié)構(gòu)的統(tǒng)計(jì)潛力。(顧名思義,蛋白質(zhì)數(shù)據(jù)庫(kù)是有關(guān)蛋白質(zhì),核酸和其他復(fù)雜裝配體的3D結(jié)構(gòu)信息的開(kāi)源存儲(chǔ)庫(kù)。)在片段裝配中,通常通過(guò)更改結(jié)構(gòu)的形狀來(lái)反復(fù)修改結(jié)構(gòu)假設(shè)。一段較短的時(shí)間,同時(shí)保留降低電位的變化,最終導(dǎo)致電位低的結(jié)構(gòu)。
借助AlphaFold,DeepMind的研究團(tuán)隊(duì)專注于從頭開(kāi)始為目標(biāo)形狀建模而無(wú)需以已解決的蛋白質(zhì)為模板的問(wèn)題。他們使用上述評(píng)分功能,搜索了蛋白質(zhì)結(jié)構(gòu),找到了符合其預(yù)測(cè)的結(jié)構(gòu),并用新的蛋白質(zhì)片段替換了蛋白質(zhì)結(jié)構(gòu)的片段。他們還訓(xùn)練了一個(gè)生成系統(tǒng)來(lái)發(fā)明新片段,并與梯度下降優(yōu)化一起使用以改善結(jié)構(gòu)得分。
該模型對(duì)從31,247個(gè)域中從蛋白質(zhì)數(shù)據(jù)庫(kù)中提取的結(jié)構(gòu)進(jìn)行了訓(xùn)練,這些結(jié)構(gòu)被分為分別包含29,427和1,820個(gè)蛋白質(zhì)的訓(xùn)練集和測(cè)試集。(本文中的結(jié)果反映了包含377個(gè)域的測(cè)試子集。)培訓(xùn)被劃分為八張圖形卡,大約花了五天的時(shí)間才能完成600,000個(gè)步驟。
經(jīng)過(guò)全面訓(xùn)練的網(wǎng)絡(luò)可以預(yù)測(cè)每對(duì)氨基酸與其作為輸入基因序列的距離。具有900個(gè)氨基酸的序列可翻譯為約40萬(wàn)個(gè)預(yù)測(cè)。
自1994年以來(lái),AlphaFold參加了2018年12月的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估比賽(CASP13),該競(jìng)賽每?jī)赡昱e行一次,為團(tuán)體提供了測(cè)試和驗(yàn)證其蛋白質(zhì)折疊方法的機(jī)會(huì)。對(duì)通過(guò)實(shí)驗(yàn)已經(jīng)解決但其結(jié)構(gòu)尚未公開(kāi)的蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測(cè)評(píng)估,證明了方法是否可以推廣到新蛋白質(zhì)。
AlphaFold通過(guò)預(yù)測(cè)43種蛋白質(zhì)中24種蛋白質(zhì)的最準(zhǔn)確結(jié)構(gòu)贏得了2018年CASP13。DeepMind貢獻(xiàn)了五種材料,這些材料是從系統(tǒng)的三種不同變體產(chǎn)生的八種結(jié)構(gòu)中選擇的,所有這些結(jié)構(gòu)均使用了基于AI模型距離預(yù)測(cè)的電位,其中一些結(jié)構(gòu)是由梯度下降系統(tǒng)生成的。DeepMind報(bào)告說(shuō),AlphaFold在免費(fèi)建模類別中表現(xiàn)特別出色,可以在沒(méi)有類似模板的情況下創(chuàng)建模型。實(shí)際上,它在該類別中獲得了52.8的z分?jǐn)?shù)總和(衡量系統(tǒng)相對(duì)于平均水平的性能),領(lǐng)先于次佳模型的36.6。
UCL生物信息學(xué)小組負(fù)責(zé)人David Jones寫(xiě)道:“蛋白質(zhì)的3D結(jié)構(gòu)可能是科學(xué)家可以獲得的最有用的信息,以幫助了解蛋白質(zhì)的作用及其在細(xì)胞中的工作方式。”項(xiàng)目的一部分。“確定蛋白質(zhì)結(jié)構(gòu)的實(shí)驗(yàn)技術(shù)既費(fèi)時(shí)又昂貴,因此迫切需要更好的計(jì)算機(jī)算法來(lái)直接從編碼蛋白質(zhì)的基因序列中計(jì)算蛋白質(zhì)的結(jié)構(gòu),而DeepMind致力于將AI應(yīng)用到這個(gè)長(zhǎng)期存在的問(wèn)題上在分子生物學(xué)中是絕對(duì)的進(jìn)步。最終目標(biāo)是確定每種人類蛋白質(zhì)的準(zhǔn)確結(jié)構(gòu),這最終可能會(huì)導(dǎo)致分子醫(yī)學(xué)的新發(fā)現(xiàn)。”