艾未未的被挖掘,以分類 癲癇發(fā)作和預(yù)測是否乳腺癌可能轉(zhuǎn)移,但其唯一的醫(yī)療應(yīng)用程序的遠(yuǎn)。在一份計(jì)劃于5月份在國際學(xué)習(xí)代表會(huì)議上發(fā)表的學(xué)術(shù)論文中,麻省理工學(xué)院的CSAIL科學(xué)家描述了一種“計(jì)算”分解鏈狀氨基酸鏈段如何決定蛋白質(zhì)功能的系統(tǒng)。他們相信它可以用來改善蛋白質(zhì)工程 - 即設(shè)計(jì)具有某些功能的新酶或蛋白質(zhì)。
我希望將結(jié)構(gòu)邊緣化,”CSAIL計(jì)算和生物學(xué)研究組的研究生,該論文的共同作者特里斯坦·貝普勒在一份聲明中說。“我們想知道蛋白質(zhì)的作用,知道結(jié)構(gòu)對此非常重要。但是,我們能否預(yù)測僅給出其氨基酸序列的蛋白質(zhì)的功能?動(dòng)機(jī)是遠(yuǎn)離特異性預(yù)測結(jié)構(gòu),轉(zhuǎn)向[發(fā)現(xiàn)]氨基酸序列如何與功能相關(guān)。“
正如Bepler及其同事所解釋的那樣,蛋白質(zhì)的行為 - 包括上述氨基酸鏈,每個(gè)都通過肽鍵緊密連接 - 很難用機(jī)器學(xué)習(xí)來預(yù)測。(也就是說,谷歌的DeepMind在十二月份使用AlphaFold取得了令人矚目的成就。)只記錄了數(shù)以萬計(jì)的數(shù)百萬個(gè)三維折疊蛋白質(zhì)形狀,并且氨基酸序列通常具有相似的結(jié)構(gòu),因此很難區(qū)分小說并重復(fù)結(jié)果。
因此,論文的作者采用了不同的方法:將預(yù)測的蛋白質(zhì)結(jié)構(gòu)直接編碼為表示。具體而言,他們在開源蛋白質(zhì)結(jié)構(gòu)分類(SCOP)中培訓(xùn)了大約22,000種標(biāo)記蛋白質(zhì)的AI系統(tǒng))數(shù)據(jù)庫,并為每一對計(jì)算得分,表明兩者在結(jié)構(gòu)上有多接近。然后,他們提供了模型隨機(jī)對蛋白質(zhì)和嵌入(即,數(shù)學(xué)表示)他們的氨基酸序列,從中學(xué)習(xí)預(yù)測他們的3D結(jié)構(gòu)可能有多相似。最后,他們讓模型比較兩個(gè)相似性得分,以確定哪些成對的嵌入共享蛋白質(zhì)結(jié)構(gòu),并構(gòu)建它以同時(shí)預(yù)測“內(nèi)容圖”,表明每個(gè)氨基酸與蛋白質(zhì)結(jié)構(gòu)中的其他氨基酸的距離。
所有這些工作的結(jié)果?一個(gè)端到端的系統(tǒng),給定氨基酸鏈作為輸入,為蛋白質(zhì)中的每個(gè)氨基酸位置產(chǎn)生嵌入 - 嵌入其他模型可用于預(yù)測所述氨基酸的功能。在一項(xiàng)實(shí)驗(yàn)中,研究人員訓(xùn)練了一種模型來比以前的方法更準(zhǔn)確地預(yù)測跨膜和非跨膜片段。
“我們的模型允許我們將已知蛋白質(zhì)結(jié)構(gòu)的信息傳遞給結(jié)構(gòu)未知的序列。使用我們的嵌入作為功能,我們可以更好地預(yù)測功能并實(shí)現(xiàn)更有效的數(shù)據(jù)驅(qū)動(dòng)蛋白質(zhì)設(shè)計(jì),“Bepler說。“從高層次來說,這種類型的蛋白質(zhì)工程是目標(biāo)。因此,我們的機(jī)器學(xué)習(xí)模型使我們能夠從相對較少的已知結(jié)構(gòu)中學(xué)習(xí)蛋白質(zhì)折疊的“語言” - 最初的“圣杯”問題之一。