麻省理工學(xué)院CSAIL的AI預(yù)測蛋白質(zhì)的功能來自氨基酸鏈

2019-06-17 12:40:05 來源：作者：

艾未未的被挖掘，以分類癲癇發(fā)作和預(yù)測是否乳腺癌可能轉(zhuǎn)移，但其唯一的醫(yī)療應(yīng)用程序的遠(yuǎn)。在一份計(jì)劃于5月份在國際學(xué)習(xí)代表會(huì)議上發(fā)表的學(xué)術(shù)論文中，麻省理工學(xué)院的CSAIL科學(xué)家描述了一種“計(jì)算”分解鏈狀氨基酸鏈段如何決定蛋白質(zhì)功能的系統(tǒng)。他們相信它可以用來改善蛋白質(zhì)工程 - 即設(shè)計(jì)具有某些功能的新酶或蛋白質(zhì)。

我希望將結(jié)構(gòu)邊緣化，”CSAIL計(jì)算和生物學(xué)研究組的研究生，該論文的共同作者特里斯坦·貝普勒在一份聲明中說。“我們想知道蛋白質(zhì)的作用，知道結(jié)構(gòu)對此非常重要。但是，我們能否預(yù)測僅給出其氨基酸序列的蛋白質(zhì)的功能?動(dòng)機(jī)是遠(yuǎn)離特異性預(yù)測結(jié)構(gòu)，轉(zhuǎn)向[發(fā)現(xiàn)]氨基酸序列如何與功能相關(guān)。“

正如Bepler及其同事所解釋的那樣，蛋白質(zhì)的行為 - 包括上述氨基酸鏈，每個(gè)都通過肽鍵緊密連接 - 很難用機(jī)器學(xué)習(xí)來預(yù)測。(也就是說，谷歌的DeepMind在十二月份使用AlphaFold取得了令人矚目的成就。)只記錄了數(shù)以萬計(jì)的數(shù)百萬個(gè)三維折疊蛋白質(zhì)形狀，并且氨基酸序列通常具有相似的結(jié)構(gòu)，因此很難區(qū)分小說并重復(fù)結(jié)果。

因此，論文的作者采用了不同的方法：將預(yù)測的蛋白質(zhì)結(jié)構(gòu)直接編碼為表示。具體而言，他們在開源蛋白質(zhì)結(jié)構(gòu)分類(SCOP)中培訓(xùn)了大約22,000種標(biāo)記蛋白質(zhì)的AI系統(tǒng))數(shù)據(jù)庫，并為每一對計(jì)算得分，表明兩者在結(jié)構(gòu)上有多接近。然后，他們提供了模型隨機(jī)對蛋白質(zhì)和嵌入(即，數(shù)學(xué)表示)他們的氨基酸序列，從中學(xué)習(xí)預(yù)測他們的3D結(jié)構(gòu)可能有多相似。最后，他們讓模型比較兩個(gè)相似性得分，以確定哪些成對的嵌入共享蛋白質(zhì)結(jié)構(gòu)，并構(gòu)建它以同時(shí)預(yù)測“內(nèi)容圖”，表明每個(gè)氨基酸與蛋白質(zhì)結(jié)構(gòu)中的其他氨基酸的距離。

所有這些工作的結(jié)果?一個(gè)端到端的系統(tǒng)，給定氨基酸鏈作為輸入，為蛋白質(zhì)中的每個(gè)氨基酸位置產(chǎn)生嵌入 - 嵌入其他模型可用于預(yù)測所述氨基酸的功能。在一項(xiàng)實(shí)驗(yàn)中，研究人員訓(xùn)練了一種模型來比以前的方法更準(zhǔn)確地預(yù)測跨膜和非跨膜片段。

“我們的模型允許我們將已知蛋白質(zhì)結(jié)構(gòu)的信息傳遞給結(jié)構(gòu)未知的序列。使用我們的嵌入作為功能，我們可以更好地預(yù)測功能并實(shí)現(xiàn)更有效的數(shù)據(jù)驅(qū)動(dòng)蛋白質(zhì)設(shè)計(jì)，“Bepler說。“從高層次來說，這種類型的蛋白質(zhì)工程是目標(biāo)。因此，我們的機(jī)器學(xué)習(xí)模型使我們能夠從相對較少的已知結(jié)構(gòu)中學(xué)習(xí)蛋白質(zhì)折疊的“語言” - 最初的“圣杯”問題之一。

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如作者信息標(biāo)記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

欧美牲交a欧美牲交-免费看撕开奶罩揉吮奶头视频-激情 人妻 制服 丝袜-丰满少妇被粗大猛烈进人高清

相關(guān)推薦

欧美牲交a欧美牲交-免费看撕开奶罩揉吮奶头视频-激情人妻制服丝袜-丰满少妇被粗大猛烈进人高清