當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 諾貝爾化學(xué)獎(jiǎng)：人工智能終結(jié)了蛋白質(zhì)研究嗎？

諾貝爾化學(xué)獎(jiǎng)：人工智能終結(jié)了蛋白質(zhì)研究嗎？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-09 18:45:04 瀏覽：1232次

導(dǎo)讀：劃重點(diǎn) 01谷歌DeepMind的AlphaFold2在2020年CASP競(jìng)賽中預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，準(zhǔn)確度高達(dá)90分以上，引發(fā)科學(xué)界關(guān)注。 02然而，AlphaFold2在預(yù)測(cè)某些點(diǎn)突變和蛋白質(zhì)與環(huán)境相互作用方面仍有局限，需要實(shí)驗(yàn)驗(yàn)證。 03為此，研究人員正在開發(fā)更先進(jìn)的算法，如AlphaFold3...

劃重點(diǎn)

01谷歌DeepMind的AlphaFold2在2020年CASP競(jìng)賽中預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，準(zhǔn)確度高達(dá)90分以上，引發(fā)科學(xué)界關(guān)注。

02然而，AlphaFold2在預(yù)測(cè)某些點(diǎn)突變和蛋白質(zhì)與環(huán)境相互作用方面仍有局限，需要實(shí)驗(yàn)驗(yàn)證。

03為此，研究人員正在開發(fā)更先進(jìn)的算法，如AlphaFold3和RoseTTAFold All-Atom，以提高預(yù)測(cè)準(zhǔn)確性。

04同時(shí)，蛋白質(zhì)科學(xué)領(lǐng)域的研究人員正嘗試將深度學(xué)習(xí)與冷凍電鏡等技術(shù)相結(jié)合，以更好地研究蛋白質(zhì)結(jié)構(gòu)。

05盡管AlphaFold2的成功引發(fā)了關(guān)于人工智能在科學(xué)領(lǐng)域應(yīng)用的討論，但科學(xué)家們?nèi)詧?jiān)信理解基本原理對(duì)于科學(xué)發(fā)展至關(guān)重要。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

2024年諾貝爾化學(xué)獎(jiǎng)公布，一半授予大衛(wèi)貝克（David Baker），“以表彰在計(jì)算蛋白質(zhì)設(shè)計(jì)方面的貢獻(xiàn)”；另一半則共同授予德米斯哈薩比斯（Demis Hassabis）和約翰M詹珀（John M. Jumper），“以表彰他們?cè)诘鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè)方面的成就”。

德米斯哈薩比斯和約翰詹珀成功地利用人工智能技術(shù)預(yù)測(cè)了幾乎所有已知蛋白質(zhì)的結(jié)構(gòu)。而大衛(wèi)貝克掌握了生命的構(gòu)建模塊，并創(chuàng)造了全新的蛋白質(zhì)。本文將為你詳解AlphaFold的歷史，以及它為何值得獲獎(jiǎng)。

2020 年 12 月，由于新冠疫情限制了大家的活動(dòng)，許多人無法親自參加會(huì)議，數(shù)百名計(jì)算科學(xué)家聚集在屏幕前，共同見證科學(xué)新時(shí)代的到來。

他們聚集在一起是為了參加一個(gè)會(huì)議，一個(gè)持續(xù)近三十年的友誼賽。他們其中有些人親身參與過這項(xiàng)賽事，并通過這項(xiàng)比賽同聚一堂，癡迷于探討同一個(gè)問題這便是蛋白質(zhì)折疊問題。簡(jiǎn)單來說就是：我們能否根據(jù)最基本的信息也就是蛋白質(zhì)分子的一維分子編碼準(zhǔn)確預(yù)測(cè)出其三維結(jié)構(gòu)？蛋白質(zhì)讓人類細(xì)胞和身體保持活力和正常運(yùn)轉(zhuǎn)。由于蛋白質(zhì)的結(jié)構(gòu)決定了它的行為，因此成功解決這個(gè)問題將對(duì)我們了解疾并研發(fā)新藥和理解生命體的運(yùn)作方式產(chǎn)生深遠(yuǎn)影響。

在每?jī)赡昱e行一次的會(huì)議上，科學(xué)家們將用最新的蛋白質(zhì)折疊工具做測(cè)試。但解決方案似乎總是遙不可及。有些人窮極一生都在力求逐步提高預(yù)測(cè)的準(zhǔn)確性，因此這項(xiàng)賽事只能說是蹣跚前行，參賽的研究者們沒有理由認(rèn)為2020年會(huì)有所不同。

但他們想錯(cuò)了。

一串一維的分子如何正確折疊成特定的三維結(jié)構(gòu)？這被稱為蛋白質(zhì)折疊（protein folding problem）的問題近期被人工智能解決了。圖源：Fran Pulido

比賽當(dāng)周，蛋白質(zhì)科學(xué)界的新秀John Jumper展示了谷歌 DeepMind在倫敦的人工智能分部推出的最新人工智能工具：AlphaFold2。他通過Zoom會(huì)議分享的相關(guān)數(shù)據(jù)顯示，AlphaFold2的三維蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型準(zhǔn)確率超過90%，比最接近的競(jìng)爭(zhēng)對(duì)手高出5倍。

一瞬間，蛋白質(zhì)折疊問題的解決方案從遙不可及變?yōu)榱送偈挚傻�。人工智能輕松地過了人類智慧舉步維艱的泥潭，這震撼了整個(gè)生物學(xué)界。出席會(huì)議的哥倫比亞大學(xué)數(shù)學(xué)基因組學(xué)項(xiàng)目的系統(tǒng)生物學(xué)家Mohammed AlQuraishi表示：“我感到非常震驚。很多人都拒絕接受這個(gè)現(xiàn)實(shí)。”

但在總結(jié)陳詞時(shí)，會(huì)議組織者John Moult打消了所有疑慮。他幾乎斬釘截鐵地表示：AlphaFold2已經(jīng)“基本解決”了蛋白質(zhì)折疊問題，并永遠(yuǎn)改變了蛋白質(zhì)科學(xué)。他穿著黑色高領(lǐng)毛衣，坐在家中辦公室的書架前，用Zoom分享著自己的幻燈片，“這不是結(jié)束，而是開始，”他這樣說道，語氣既令人興奮又令人擔(dān)憂。

蛋白質(zhì)是具有數(shù)億種不同結(jié)構(gòu)的分子。每一種都具有特定的生物功能，有些負(fù)責(zé)在血液中輸送氧氣，有些則負(fù)責(zé)引發(fā)化學(xué)反應(yīng)。具體功能通常由其形狀或結(jié)構(gòu)決定。

上：從左往右依次為SARS-COV-2刺突蛋白、新冠疫苗靶點(diǎn)；5-羥色胺受體、管控情緒與消化；血紅蛋白、輸送血液中的氧氣；細(xì)胞因子、調(diào)節(jié)免疫防御。

下：從左往右依次為膠原蛋白、讓組織成型；螢火蟲螢光素酶、發(fā)光；抗體、鑒別外來物質(zhì)；胰島素、調(diào)節(jié)血糖；淀粉酶、消化淀粉；瘦素、控制食欲。圖源：RCSB PDB

當(dāng)谷歌的公關(guān)部門向全世界發(fā)布這一消息時(shí)，媒體為之瘋狂。AlphaFold2“將會(huì)改變一切”的說法占據(jù)了各大新聞的頭版頭條。那些畢生致力于研究單個(gè)蛋白質(zhì)結(jié)構(gòu)的蛋白質(zhì)生物學(xué)家擔(dān)心自己會(huì)丟掉飯碗。還有人聲稱，AlphaFold2將徹底改變藥物研發(fā)，因?yàn)樯飳W(xué)家可以快速了解蛋白質(zhì)的結(jié)構(gòu)，從而更高效地研發(fā)出以蛋白質(zhì)為靶點(diǎn)的新藥。其他人則反駁說，這些結(jié)果大多是炒作，不會(huì)帶來實(shí)質(zhì)性改變。

Moult自己也幾乎無法理解這件事本身意味著什么。他在會(huì)議最后問出了大家都想問的問題：“接下來怎么辦？”

這個(gè)問題已經(jīng)是三年半以前的事了，現(xiàn)在我們終于能夠嘗試回答他的問題了。

不可否認(rèn)，AlphaFold2的確改變了生物學(xué)家研究蛋白質(zhì)的方式。然而，雖然AlphaFold2是一個(gè)強(qiáng)大的預(yù)測(cè)工具，但它并不是一個(gè)全知全能的機(jī)器。它非常巧妙地解決了蛋白質(zhì)折疊問題的一部分，但并不是科學(xué)家所想的那樣。它并沒有取代生物實(shí)驗(yàn)，而是強(qiáng)調(diào)了生物實(shí)驗(yàn)的必要性。

AlphaFold2最大的影響可能是讓生物學(xué)家關(guān)注人工智能的力量。它已經(jīng)啟發(fā)了新的算法，包括設(shè)計(jì)在自然界中不存在的新蛋白質(zhì)的算法。此外，它還催生了新型生物技術(shù)公司，引領(lǐng)了新的科學(xué)實(shí)踐方式。2024年5月，其繼任者AlphaFold3發(fā)布，它能夠模擬蛋白質(zhì)和DNA或RNA等其他分子的結(jié)構(gòu)與相互作用，標(biāo)志著生物領(lǐng)域的預(yù)測(cè)模型進(jìn)入了新的發(fā)展階段。

AlQuraishi表示：“這是迄今為止科學(xué)領(lǐng)域最重要的‘機(jī)器學(xué)習(xí)’故事。”

然而，生物科學(xué)領(lǐng)域仍有許多人工智能未能跨越的鴻溝。這些工具無法模擬蛋白質(zhì)如何隨時(shí)間發(fā)生變化，也無法根據(jù)蛋白質(zhì)存在的環(huán)境（即細(xì)胞內(nèi)）對(duì)其進(jìn)行建模。在勞倫斯伯克利國(guó)家實(shí)驗(yàn)室開發(fā)生物分子結(jié)構(gòu)建模算法的結(jié)構(gòu)生物學(xué)家Paul Adams表示：“AlphaFold似乎改變了一切，又好像什么都沒有改變。”

本文便是有關(guān)來自谷歌DeepMind的Jumper團(tuán)隊(duì)是如何變革蛋白質(zhì)科學(xué)及其如何影響人工智能在生物學(xué)領(lǐng)域未來應(yīng)用的故事。

前夜

（1）物理基礎(chǔ)

一張折紙?jiān)谝蕴囟ǚ绞秸郫B之前，只不過是壓制的木漿，而在折疊之后，它才能煥然一新。幾經(jīng)精妙的卷曲與翻折，它就變成了一個(gè)紙制的算命工具，可以用來預(yù)測(cè)你的未來。而只需改變幾個(gè)折疊步驟，同一張紙就可以變成一只展翅飛翔的仙鶴，給人帶來好運(yùn)。

同樣，一長(zhǎng)串氨基酸分子在自發(fā)折疊成其固有形狀（生物學(xué)家稱之為結(jié)構(gòu)）之前沒有任何功能。蛋白質(zhì)的結(jié)構(gòu)決定了它如何與其他分子結(jié)合或相互作用，因此也決定了它在細(xì)胞中的作用。

圖源：Mark Belan，翻譯：vicky，制圖：存源

地球上有幾億種已知的蛋白質(zhì)，還有更多未知的蛋白質(zhì)。它們無所不能：血紅蛋白和肌紅蛋白將氧氣運(yùn)送到肌肉和身體各處。角蛋白構(gòu)成頭發(fā)、指甲和皮膚的外層結(jié)構(gòu)。胰島素使葡萄糖進(jìn)入細(xì)胞，轉(zhuǎn)化為能量。蛋白質(zhì)的形態(tài)似乎變幻莫測(cè)，以滿足實(shí)際生活中各種各樣的需求。

“從原子到生態(tài)系統(tǒng)，（蛋白質(zhì)結(jié)構(gòu)）像是一種通用語言，是一切的起源，”AlQuraishi說道。

細(xì)胞通過菊花鏈的方式將氨基酸這種小分子連接成長(zhǎng)長(zhǎng)的多肽串，從而生成蛋白質(zhì)。它所選擇的氨基酸取決于DNA提供給它的一組基本指令。生成后不到一秒，多肽串就會(huì)開始精確地彎曲、扣合、折疊成蛋白質(zhì)的最終三維結(jié)構(gòu)。一旦裝配完成，它們便會(huì)立刻開始履行自己的生物職能。

如果蛋白質(zhì)不能很好地完成這一折疊過程，那么人體將會(huì)經(jīng)受一系列危及性命的打擊。錯(cuò)誤折疊或結(jié)構(gòu)解開的蛋白質(zhì)會(huì)導(dǎo)致中毒和細(xì)胞死亡。許多疾病和失調(diào)都是由錯(cuò)誤折疊的蛋白質(zhì)引起的，如鐮狀細(xì)胞貧血。此類蛋白質(zhì)還會(huì)聚集成塊，這也是阿爾茨海默病和帕金森病等神經(jīng)退行性疾病的特征。

然而，沒有人真正了解蛋白質(zhì)是如何折疊的。這些簡(jiǎn)單分子鏈中的序列信息又是如何編碼蛋白質(zhì)的復(fù)雜結(jié)構(gòu)呢？約翰霍普金斯大學(xué)生物物理學(xué)名譽(yù)教授George Rose表示“這是我們能提出的最深?yuàn)W的問題。”

20世紀(jì)50年代，生物化學(xué)家Christian Anfinsen進(jìn)行的實(shí)驗(yàn)表明，氨基酸串內(nèi)部含有一種內(nèi)在的代碼，指示它如何折疊成蛋白質(zhì)并且應(yīng)該有一種方法可以從這一代碼中預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。這個(gè)假設(shè)被稱為安芬森教條（Anfinsen’s dogma）。圖源：PBH Images/Alamy

早在20世紀(jì)30年代，科學(xué)家們就開始探究這個(gè)問題。但真正取得突破要等到20世紀(jì)50年代中期，當(dāng)時(shí)一位名叫Christian Anfinsen的生物化學(xué)家將蛋白質(zhì)加入化學(xué)溶液中，這一做法要么會(huì)導(dǎo)致蛋白質(zhì)的鍵斷裂，使其結(jié)構(gòu)展開；要么會(huì)導(dǎo)致蛋白質(zhì)發(fā)生錯(cuò)誤折疊。通過觀察，他發(fā)現(xiàn)，展開或折疊錯(cuò)誤的蛋白質(zhì)可以自發(fā)地重新折疊成正確的結(jié)構(gòu)。這一發(fā)現(xiàn)證明了蛋白質(zhì)的三維結(jié)構(gòu)是由內(nèi)部編碼（由氨基酸串的編碼）決定的，Christian Anfinsen也憑此獲得了諾貝爾獎(jiǎng)。

基于這一發(fā)現(xiàn)，Anfinsen提出了一個(gè)假設(shè)：應(yīng)該有一種方法可以根據(jù)氨基酸序列預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)這就是后來廣為人知的蛋白質(zhì)折疊問題。

一旦多肽鏈組裝完成，它們就能在千分之一秒內(nèi)折疊成正確的結(jié)構(gòu)，速度之快令分子生物學(xué)家Cyrus Levinthal咋舌。在1969年發(fā)表的論文《如何優(yōu)雅地折疊》（How to Fold Graciously）中，Levinthal計(jì)算出，如果一個(gè)蛋白質(zhì)要嘗試每一種可能的折疊方案，那么它的組裝時(shí)間將長(zhǎng)得無法想象。他推測(cè)，顯然是有某種更為直接地方式引導(dǎo)了蛋白質(zhì)的正確折疊。

隨著時(shí)間的推移，蛋白質(zhì)折疊問題又衍生出新的問題，主要有三個(gè)：能否根據(jù)氨基酸序列預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)？折疊編碼是什么？折疊機(jī)制是什么？

20 世紀(jì) 60 年代初，當(dāng)?shù)谝慌ㄟ^實(shí)驗(yàn)決定的蛋白質(zhì)結(jié)構(gòu)問世時(shí)，這些問題開始在科學(xué)家的心中生根發(fā)芽。劍橋大學(xué)的兩位生物學(xué)家Max Perutz和John Kendrew將蛋白質(zhì)培育成晶體，用X射線轟擊它們，并測(cè)量射線如何彎曲這種技術(shù)被稱為X射線晶體學(xué)（X-ray crystallography）。通過這種方法，他們確定了血紅蛋白和肌紅蛋白的三維結(jié)構(gòu)。這項(xiàng)實(shí)驗(yàn)耗時(shí)二十多年，為兩人贏得了諾貝爾獎(jiǎng)。

John Kendrew（左）和Max Perutz（右）利用 X 射線晶體學(xué)仔細(xì)揭示了血紅蛋白和肌紅蛋白的結(jié)構(gòu)。隨后，他們使用小球（代表原子）和棍子（代表化學(xué)鍵）構(gòu)建了物理模型。圖源：MRC Laboratory of Molecular Biology

從那時(shí)起，無數(shù)研究人員不懈努力，試圖了解不同蛋白質(zhì)的結(jié)構(gòu)，及其底層的機(jī)制。格拉斯哥大學(xué)的結(jié)構(gòu)生物學(xué)家Helen Walden表示：“想弄清楚事物的外觀是人類的本能，因?yàn)檫@樣我們便能了解其功能。”還有一些科學(xué)家嘗試從化學(xué)或物理的角度解決問題。他們?nèi)諒?fù)一日地在實(shí)驗(yàn)室里辛勤工作，最終成功重建了蛋白質(zhì)的結(jié)構(gòu)。計(jì)算生物學(xué)家通過模型和模擬尋找線索，他們用不同的算法規(guī)則組合對(duì)模型和模擬進(jìn)行編程并不斷改進(jìn)更新。

隨著越來越多的蛋白質(zhì)結(jié)構(gòu)被發(fā)現(xiàn)，蛋白質(zhì)科學(xué)界需要一種方法來組織和共享這些信息。1971年，蛋白質(zhì)數(shù)據(jù)庫(kù)（Protein Data Bank），作為一個(gè)存儲(chǔ)蛋白質(zhì)結(jié)構(gòu)的檔案庫(kù)，應(yīng)運(yùn)而生。該數(shù)據(jù)庫(kù)可免費(fèi)使用，對(duì)于所有想要通過了解蛋白質(zhì)結(jié)構(gòu)來探究生物問題的研究者來說，都是一個(gè)可靠的工具。

蛋白質(zhì)數(shù)據(jù)庫(kù)建立之初，只保存了7種蛋白質(zhì)的結(jié)構(gòu)。將近50年后，當(dāng)谷歌DeepMind利用它來訓(xùn)練AlphaFold2時(shí)，它已記錄了超過14萬種蛋白質(zhì)結(jié)構(gòu)每個(gè)結(jié)構(gòu)都是由結(jié)構(gòu)生物學(xué)家費(fèi)盡周折解碼出來的。

（2）實(shí)驗(yàn)派的苦惱

從20世紀(jì)70年代中期起，牛津大學(xué)的生物物理學(xué)家Janet Thornton每隔幾個(gè)月就會(huì)收到一個(gè)郵包。里面是一卷12英寸的磁帶，包含了存入蛋白質(zhì)數(shù)據(jù)庫(kù)的新蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)。她會(huì)迫不及待地撕開包裹，想要立刻開始分析新發(fā)現(xiàn)的蛋白質(zhì)結(jié)構(gòu)。她收到的第一盤磁帶上只包含20種蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)。

“有很多學(xué)生說，‘我想來解決蛋白質(zhì)折疊問題，’”去年從歐洲分子生物學(xué)實(shí)驗(yàn)室退休的結(jié)構(gòu)生物學(xué)家Janet Thornton說。“但坦率地說，我對(duì)如何做到這一點(diǎn)沒有任何新想法。”圖源：Jeff Dowling, EMBL-EBI

磁帶記錄的每一個(gè)蛋白質(zhì)都是多年心血的結(jié)晶。通常情況下，一名博士生會(huì)在讀研的四年間或花費(fèi)更長(zhǎng)時(shí)間研究單個(gè)蛋白質(zhì)的結(jié)晶，從中收集數(shù)據(jù)或解讀數(shù)據(jù)，從而厘清其折疊結(jié)構(gòu)。

牛津大學(xué)生物物理系當(dāng)時(shí)是世界X射線晶體學(xué)中心之一。1965年，蛋白質(zhì)晶體學(xué)的先驅(qū)之一David Phillips在牛津大學(xué)首次測(cè)定了溶菌酶的結(jié)構(gòu)，這種酶會(huì)被免疫系統(tǒng)用來對(duì)抗細(xì)菌。牛津大學(xué)的生物物理學(xué)家利用X射線晶體學(xué)繪制了蛋白質(zhì)的電子密度圖；電子聚集的區(qū)域很可能含有一個(gè)原子。Thornton和她的同事們將這些電子密度圖打印到塑料板上，然后將它們疊放在一起，從而繪制出蛋白質(zhì)的形態(tài)“輪廓圖”。

X射線晶體學(xué)可以幫助科學(xué)家繪制電子密度圖，直觀地顯示電子聚集的位置，從而顯示分子中可能存在原子的位置。通過將電子密度圖疊放在一起（左圖），科學(xué)家可以推斷出蛋白質(zhì)或青霉素等其他分子的結(jié)構(gòu)（右圖）。圖源：Science Museum Group

隨后，他們將輪廓圖轉(zhuǎn)換成了物理模型。他們先將塑料平面圖放入理查茲盒中以牛津大學(xué)生物物理學(xué)家弗雷德里克理查茲（Frederic Richards）命名的裝置，他于1968年發(fā)明了這種裝置。理查茲盒內(nèi)設(shè)有一面傾斜的鏡子，能將輪廓圖反射到一個(gè)工作區(qū)內(nèi)，這讓科學(xué)家們能看到每個(gè)原子相對(duì)于其他原子的準(zhǔn)確位置。然后，他們用小球和棍子搭建出了一個(gè)物理模型。

這種方法既繁瑣又有局限性。1971年，Louise Johnson著手為磷酸化酶建模，包含842個(gè)氨基酸的磷酸化酶是當(dāng)時(shí)學(xué)界研究過的最大的蛋白質(zhì)。為了成功建立模型，Johnson不得不爬梯子進(jìn)入牛津大學(xué)專門為她的項(xiàng)目建造的兩層樓高的理查茲盒中。她日后成為了知名晶體學(xué)家。

模型完成后，科學(xué)家們用尺子測(cè)量了原子間的距離，從而得出蛋白質(zhì)結(jié)構(gòu)的各個(gè)坐標(biāo)。Thornton表示：“這種方法太過時(shí)了。”然后，他們將坐標(biāo)輸入計(jì)算機(jī)。她說，電腦上看起來就像一片茂密的森林，原子們雜亂無章地?cái)D在一起。只有戴上3D眼鏡觀察結(jié)構(gòu)時(shí)，才能看清蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu)。

“這個(gè)過程太折磨人了，能堅(jiān)持到底已經(jīng)非常了不起了,”Thornton感慨道。

X射線晶體學(xué)的工作原理。

年復(fù)一年，他們終于成功了。一旦研究人員確認(rèn)了自己所復(fù)構(gòu)的蛋白質(zhì)結(jié)構(gòu)，他們就會(huì)將其提交給蛋白質(zhì)數(shù)據(jù)庫(kù)。到1984年，已有152個(gè)蛋白質(zhì)的結(jié)構(gòu)被存入了數(shù)據(jù)庫(kù)。1992年，這一數(shù)字攀升至747個(gè)。

當(dāng)實(shí)驗(yàn)學(xué)家們還在苦苦研究物理模型時(shí)，另一學(xué)派的蛋白質(zhì)生物學(xué)家計(jì)算科學(xué)家們卻采取了不同的方法。但是，當(dāng)他們考量Anfinsen所提出的假設(shè)，即根據(jù)氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)時(shí)，卻顯得有點(diǎn)過于自信了。

（3）制定規(guī)則

20世紀(jì)60年代初，John Moult還是一名大學(xué)生時(shí)，就計(jì)劃成為一名物理學(xué)家。后來，他了解到了蛋白質(zhì)折疊問題。他說：“有人來給我們講了一堂課，說生物學(xué)問題太重要了，不能留給生物學(xué)家來解決。我當(dāng)時(shí)很傲慢，所以當(dāng)真了。”被生物學(xué)迷住的他將職業(yè)生涯轉(zhuǎn)向了另一個(gè)方向。

畢業(yè)后，Moult進(jìn)入了蛋白質(zhì)晶體學(xué)領(lǐng)域。他解碼了幾種蛋白質(zhì)的結(jié)構(gòu)，包括β-內(nèi)酰胺酶，這是一種能夠破壞青霉素的細(xì)菌酶。1970年，他在牛津大學(xué)獲得分子生物物理學(xué)博士學(xué)位。但當(dāng)開啟博士后研究后，他厭倦了實(shí)驗(yàn)派的方法，并開始轉(zhuǎn)向逐步發(fā)展壯大的計(jì)算派。計(jì)算生物學(xué)家與實(shí)驗(yàn)學(xué)家不同，他們編寫計(jì)算機(jī)算法，試圖證明Anfinsen的假設(shè)，即他們可以向一個(gè)程序輸入一串氨基酸，從而生成正確的蛋白質(zhì)結(jié)構(gòu)。

John Moult與人共同創(chuàng)立了“結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估”(CASP) 實(shí)驗(yàn)，迫使他自己和其他計(jì)算生物學(xué)家根據(jù)實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)，來測(cè)試他們的蛋白質(zhì)計(jì)算機(jī)模型。圖源：Umit Gulsen / Quanta Magazine

從生物實(shí)驗(yàn)到計(jì)算的轉(zhuǎn)變并非坦途。Moult已經(jīng)習(xí)慣了以慢工出細(xì)活地方式解析單一蛋白質(zhì)的結(jié)構(gòu)。但在計(jì)算生物學(xué)領(lǐng)域，每隔一段時(shí)間就有論文聲稱蛋白質(zhì)折疊問題和相關(guān)子問題已經(jīng)得到了解決。

Moult對(duì)此表示懷疑。他說：“在這一領(lǐng)域發(fā)表的論文不像我以前所在領(lǐng)域那樣嚴(yán)謹(jǐn)。這并不是說計(jì)算生物學(xué)領(lǐng)域都是騙子，而是因?yàn)榇祟愑?jì)算工作都是在虛擬世界中完成的。”

在虛擬世界中，當(dāng)自然界的規(guī)則不起作用時(shí)，計(jì)算學(xué)家們就會(huì)制定自己的規(guī)則。他們會(huì)設(shè)計(jì)算法，讓原子以某種方式粘在一起，或者讓蛋白質(zhì)總是向右或向左折疊。隨著時(shí)間的推移，這些模型變得越來越脫離現(xiàn)實(shí)。Moult認(rèn)為，在一個(gè)你可以完全控制的世界里，人很難保持嚴(yán)謹(jǐn)。

不過，他還是認(rèn)為兩種方法都有可取之處。實(shí)驗(yàn)派工作精細(xì)，但速度緩慢；計(jì)算派進(jìn)展迅速，但卻遠(yuǎn)離生物物理現(xiàn)實(shí)，以至于經(jīng)常出錯(cuò)。

他想，一定有辦法把兩種方法的優(yōu)點(diǎn)結(jié)合起來。

（4）跺腳以示反對(duì)

20世紀(jì)90年代初，Moult和他的同事Krzysztof Fidelis想出了一個(gè)辦法來規(guī)范計(jì)算生物學(xué)領(lǐng)域的混亂局面。他們啟動(dòng)了一個(gè)名為“結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估”（Critical Assessment of Structure Prediction，簡(jiǎn)稱 CASP）的社區(qū)科學(xué)實(shí)驗(yàn)。

這個(gè)想法很簡(jiǎn)單。作為CASP的發(fā)起人，Moult和Fidelis會(huì)公布一份蛋白質(zhì)氨基酸序列列表，上面列舉了近期已被解析的蛋白質(zhì)結(jié)構(gòu)，相關(guān)數(shù)據(jù)由相應(yīng)的實(shí)驗(yàn)人員提供，但結(jié)果尚未發(fā)布。然后，世界各地的計(jì)算研究小組將使出渾身解數(shù)來預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。一個(gè)獨(dú)立的科學(xué)家小組將通過比較他們的答案和實(shí)驗(yàn)證實(shí)的結(jié)構(gòu)來評(píng)估這些預(yù)測(cè)模型。

這個(gè)想法被付諸實(shí)踐。于是，CASP很快就成為以計(jì)算方法解決蛋白質(zhì)折疊問題的試驗(yàn)常那時(shí)還沒有人工智能，計(jì)算方法主要是模擬分子的物理學(xué)原理。這是科學(xué)家們公開與同行同場(chǎng)競(jìng)技，驗(yàn)證自己觀點(diǎn)的機(jī)會(huì)。Thornton表示：“CASP本意并不是為了比賽，但實(shí)際上已經(jīng)成為一項(xiàng)賽事。”

CASP每?jī)赡昱e辦一次，科學(xué)家們會(huì)在阿西洛馬會(huì)議中心齊聚一堂，這是加利福尼亞州蒙特雷附近一座古老的小教堂，曾經(jīng)是衛(wèi)理公會(huì)教徒的隱居地。與會(huì)期間，組織者會(huì)宣布競(jìng)賽結(jié)果，計(jì)算學(xué)家們會(huì)發(fā)表演講，介紹自己所用的方法。Moult鼓勵(lì)與會(huì)者如果不贊同陳述的內(nèi)容，可以在木地板上跺幾腳以示反對(duì)。

他說：“剛開始的時(shí)候，跺腳聲確實(shí)是此起彼伏。”

曾師從Thornton的倫敦大學(xué)學(xué)院生物信息學(xué)教授David Jones回憶說：“跺腳聲仿佛鼓聲一樣。”如果演講者所分享的細(xì)節(jié)太冗長(zhǎng)，生物學(xué)家們會(huì)跺腳；如果陳述內(nèi)容夸大其詞，他們也會(huì)跺腳；如果演講者的觀點(diǎn)重復(fù)或過于雜亂，他們還會(huì)跺腳。Jones表示：“跺腳聲并不討厭，”因?yàn)檫@都是善意的聲音。

早期的CASP會(huì)議在加利福尼亞州蒙特雷的阿西洛瑪會(huì)議中心舉行。當(dāng)與會(huì)者在木地板上跺腳時(shí)，聲音就像鼓聲一樣。圖源：Aramark Destinations

不管跺腳是出于什么原因，當(dāng)跺腳聲在演講者耳邊響起時(shí)，都會(huì)讓人感到尷尬。Jones說:“感謝老天爺，我演講時(shí)沒人跺過腳。有一年，他和同事們提出了一種名為“穿線法（threading）”的計(jì)算方法，即通過已知的蛋白質(zhì)結(jié)構(gòu)編織氨基酸序列，尋找契合點(diǎn)。他們的表現(xiàn)還可以。“我們當(dāng)時(shí)很高興。......但之后就開始走下坡路了，”Jones笑著回憶道.“真的，挺很意思的。”

帕多瓦大學(xué)生物信息學(xué)教授Silvio Tosatto表示，當(dāng)時(shí)學(xué)界興致盎然。“大家覺得如果自己有能夠正確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的算法，就可以成為百萬富翁。還有一些人認(rèn)為諾貝爾獎(jiǎng)已經(jīng)近在咫尺了。”

當(dāng)然，早年這些美夢(mèng)都沒成真。當(dāng)被問及在此期間，CASP收到的分享報(bào)告質(zhì)量如何時(shí)，Moult停頓了一下，說道：“可以用參差不齊（Random）來形容。”

有些方法的效果比預(yù)期的要好，比如“同源建模（homology modeling）”，它通過比較已知蛋白質(zhì)的結(jié)構(gòu)來推導(dǎo)未知蛋白質(zhì)的結(jié)構(gòu)。還有些方法則一敗涂地。Moult說，大多數(shù)模型的預(yù)測(cè)結(jié)果都是“扭曲變形的”。

荷蘭癌癥研究所和烏特勒支大學(xué)的結(jié)構(gòu)生物學(xué)家Anastassis Perrakis開玩笑說：“我很喜歡看到他們失敗。”他曾將實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)結(jié)構(gòu)提供給CASP組織者作為比賽參考。“這不是較勁，我們只是喜歡就科學(xué)問題捉弄彼此。”

不過在這一過程中，也有一些人嶄露頭角。1996年，第二屆CASP結(jié)束后，一位名叫David Baker的年輕人邀請(qǐng)Jones共乘一輛出租車前往機(jī)常他聽過Jones的演講，正在研究自己的計(jì)算模型。雖然他還沒準(zhǔn)備好參加這次的CASP，但他想和Jones聊聊。于是，Jones在出租車上傾聽了他的想法，但沒想過會(huì)再見到他。

等到1998年，這位年輕人憑借自己的算法Rosetta驚艷全常Jones說，他當(dāng)時(shí)可謂是“一馬當(dāng)先”。

David Baker 現(xiàn)在是世界領(lǐng)先的蛋白質(zhì)設(shè)計(jì)專家之一，他憑借名為 Rosetta 的高性能算法，在CASP中成為了眾矢之的。。圖源：BBVA Foundation

Rosetta這樣的算法可以模擬氨基酸分子的原子間相互作用，從而預(yù)測(cè)它們將如何折疊。它們“表明你確實(shí)可以預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。但它還不夠好，也不夠準(zhǔn)確，因此實(shí)用價(jià)值有限，”Baker評(píng)論道。

2008年，計(jì)算機(jī)的表現(xiàn)依然不如人類。Baker當(dāng)時(shí)正在華盛頓大學(xué)管理自己的實(shí)驗(yàn)室，他創(chuàng)建了一款名為Foldit的免費(fèi)在線游戲，玩家可以將一串串氨基酸折疊成蛋白質(zhì)結(jié)構(gòu)。他的團(tuán)隊(duì)在發(fā)表于《自然》期刊的一篇論文中報(bào)告說，人類玩家在蛋白質(zhì)建模方面的表現(xiàn)優(yōu)于Rosetta。

但人類的領(lǐng)先優(yōu)勢(shì)不會(huì)持續(xù)太久。2010年代初，科學(xué)家們?cè)谝粋€(gè)被稱為“協(xié)同進(jìn)化（co-evolution）”的概念上取得了重大突破，這推動(dòng)了這一領(lǐng)域的發(fā)展，并為日后人工智能的發(fā)展打下了重要基石。這個(gè)概念其實(shí)已經(jīng)存在了幾十年，簡(jiǎn)單明了的說就是：通過比較成百上千個(gè)蛋白質(zhì)中密切相關(guān)的氨基酸序列，科學(xué)家們可以識(shí)別出發(fā)生變異的氨基酸。更重要的是，可以確定它們是否與其他氨基酸同步發(fā)生變異。如果兩個(gè)氨基酸同時(shí)發(fā)生了變化，那么它們之間很可能存在某種聯(lián)系。伯克利實(shí)驗(yàn)室的結(jié)構(gòu)生物學(xué)Adams表示：“我們可以說，這兩個(gè)氨基酸也許在空間上很靠近。”

蛋白質(zhì)的協(xié)同進(jìn)化能夠揭示其結(jié)構(gòu)。圖源：Mark Belan

但直到2010年代初，這種預(yù)測(cè)哪些氨基酸會(huì)發(fā)生接觸的方法令人失望，準(zhǔn)確率徘徊在20% 到24%之間。隨后，科學(xué)家們注意到，他們的統(tǒng)計(jì)方法存在誤差，也就是說一些看似彼此接觸的氨基酸實(shí)際上并沒有任何接觸。后來，Moult了解到，幾十年來，統(tǒng)計(jì)學(xué)家一直對(duì)這種誤差的存在心知肚明。他說，回首往事，你會(huì)想“我當(dāng)初怎么這么笨？”

隨后，計(jì)算生物學(xué)家清理了統(tǒng)計(jì)工具。到了2016年，接觸預(yù)測(cè)的準(zhǔn)確率已經(jīng)飆升至47%。兩年后，準(zhǔn)確率達(dá)到了70%。Baker的算法之所以能取得成功還要?dú)w功于以下原因：2014年，Rosetta生成了兩個(gè)非常精確的蛋白質(zhì)結(jié)構(gòu)，以至于CASP評(píng)審員認(rèn)為Baker可能已經(jīng)解決了蛋白質(zhì)折疊問題。

Adams表示，協(xié)同進(jìn)化的洞見“非常奇妙”。在不使用機(jī)器學(xué)習(xí)的情況下，協(xié)同進(jìn)化是“真正推動(dòng)該領(lǐng)域發(fā)展的重大事件之一”。

然而，這項(xiàng)突破并沒能帶領(lǐng)該領(lǐng)域走得太遠(yuǎn)。協(xié)同進(jìn)化需要大量相似的蛋白質(zhì)進(jìn)行比較，而實(shí)驗(yàn)人員解析蛋白質(zhì)結(jié)構(gòu)的速度不足以滿足計(jì)算人員的需求。

談及這一切時(shí)，Moult引用了進(jìn)化生物學(xué)中的一個(gè)術(shù)語：歲月在間斷平衡（punctuated equilibrium）中流逝。有時(shí)，人們感覺好像十億年都沒有進(jìn)化出好的想法，但緊接著便有可能發(fā)生令人興奮的進(jìn)展。

問世

（1）倉(cāng)促上陣

2016年，David Jones在《自然》期刊上發(fā)表的一篇新論文中瞥見了未來的景象。來自谷歌DeepMind（一個(gè)位于倫敦的人工智能團(tuán)隊(duì)）的研究人員詳細(xì)介紹了他們的算法是如何利用一種被稱為深度學(xué)習(xí)的方法，在圍棋這項(xiàng)古老的棋盤游戲中擊敗人類冠軍的。

Jones大吃一驚。“大事即將發(fā)生，我真的要了解深度學(xué)習(xí)了，”他回憶道。

深度學(xué)習(xí)是一種受人類大腦啟發(fā)的人工智能技術(shù)。在你的大腦中，分子信息通過由神經(jīng)元這種腦細(xì)胞構(gòu)成的互通互聯(lián)網(wǎng)絡(luò)進(jìn)行傳輸。神經(jīng)元向外延伸的突起叫做樹突，可以捕捉鄰近神經(jīng)元派出的分子，這些分子會(huì)告訴接收神經(jīng)元，是否需要發(fā)射和傳播信號(hào)。

布朗大學(xué)計(jì)算機(jī)科學(xué)系的教授Michael Littman說：“如果該神經(jīng)元接受到了足夠多的活動(dòng)分子，那么該神經(jīng)元就會(huì)被激活，從而發(fā)出信號(hào)。這將導(dǎo)致另一波分子被釋放到下一個(gè)神經(jīng)元。”

20世紀(jì)50年代，計(jì)算機(jī)科學(xué)家意識(shí)到，他們可以將電子比特連接起來，創(chuàng)建“神經(jīng)網(wǎng)絡(luò)”。神經(jīng)網(wǎng)絡(luò)中的每個(gè)單元都是一個(gè)節(jié)點(diǎn)，研究人員將其比喻為神經(jīng)元：一個(gè)神經(jīng)元接收來自其他神經(jīng)元的信息，然后計(jì)算是否向下一個(gè)神經(jīng)元發(fā)射信息。在這樣的神經(jīng)網(wǎng)絡(luò)中，信息通過多層神經(jīng)元傳播，產(chǎn)生特定的結(jié)果，比如識(shí)別圖像中的狗等。

神經(jīng)網(wǎng)絡(luò)的工作原理。圖源：Mark Belan

神經(jīng)元的層數(shù)越多，能進(jìn)行的計(jì)算越復(fù)雜。但早期的神經(jīng)網(wǎng)絡(luò)一般只有兩層。到了20世紀(jì)90年代，神經(jīng)元層數(shù)增加到了三層，并在接下來20年間都未增加。Littman說：“我們不知道如何可靠地創(chuàng)建比這更深層的神經(jīng)網(wǎng)絡(luò)。”

自20世紀(jì)90年代以來，包括Jones和Moult在內(nèi)的結(jié)構(gòu)生物學(xué)家一直嘗試將神經(jīng)科學(xué)網(wǎng)絡(luò)運(yùn)用到蛋白質(zhì)科學(xué)中，但淺層網(wǎng)絡(luò)和稀疏數(shù)據(jù)的局限性讓他們止步不前。隨后時(shí)間來到20世紀(jì)10年代初，計(jì)算機(jī)科學(xué)家們學(xué)會(huì)了如何更好地構(gòu)建神經(jīng)網(wǎng)絡(luò)，以便對(duì)更多層神經(jīng)元進(jìn)行穩(wěn)定的訓(xùn)練。神經(jīng)網(wǎng)絡(luò)的層數(shù)也逐漸從20層、50層、100層發(fā)展到數(shù)千層。Littman表示：“為了區(qū)別于我們?cè)?0年代的做法，人們開始稱之為‘深度學(xué)習(xí)’。要說機(jī)器學(xué)習(xí)領(lǐng)域的研究者們擅長(zhǎng)什么，那可以說是創(chuàng)造一些酷炫的名詞了。”

深度學(xué)習(xí)改變了人工智能，使算法能夠出色地識(shí)別照片或聲音中的特征，并在游戲中擊敗了人類。

2016年3月，當(dāng)DeepMind聯(lián)合創(chuàng)始人Demis Hassabis在首爾見證其旗下的人工智能系統(tǒng)AlphaGo在歷史悠久的圍棋比賽中擊敗人類世界冠軍時(shí)，他回想起了自己在大學(xué)時(shí)玩Foldit的情景。他想知道，如果DeepMind的研究人員能寫出模仿圍棋大師直覺的算法，難道他們不能寫出模仿Foldit游戲玩家直覺的算法嗎？這樣的算法雖然不懂生物學(xué)，卻知道如何折疊蛋白質(zhì)。

2016年，谷歌DeepMind的人工智能系統(tǒng)AlphaGo戰(zhàn)勝了世界圍棋冠軍李世石（右），其模仿人類直覺的能力引起了生物學(xué)家對(duì)深度學(xué)習(xí)在蛋白質(zhì)科學(xué)中潛力的關(guān)注。圖源：Google DeepMind

芝加哥豐田工業(yè)大學(xué)的教授許錦波（Jinbo Xu）也認(rèn)識(shí)到了利用深度學(xué)習(xí)解決蛋白質(zhì)折疊問題的潛力。他受到了神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別方面所取得的成績(jī)的啟發(fā)。當(dāng)時(shí)，計(jì)算機(jī)科學(xué)家已經(jīng)在卷積網(wǎng)絡(luò)方面取得了巨大成功，卷積網(wǎng)絡(luò)利用深度學(xué)習(xí)算法將圖像分割成若干塊，并識(shí)別它們之間的模式。許教授將這一技術(shù)引入了蛋白質(zhì)折疊領(lǐng)域。他使用一種稱為矩陣的數(shù)學(xué)對(duì)象來表示哪些氨基酸在空間中彼此鄰近，然后將數(shù)據(jù)作為圖像輸入卷積網(wǎng)絡(luò)。該算法通過尋找這些圖像之間的模式來預(yù)測(cè)組成蛋白質(zhì)的原子的三維坐標(biāo)。

2016年，他在arxiv.org上發(fā)布了這項(xiàng)的預(yù)印*（后來發(fā)表在PLOS Computational Biology上），向人們展示了“深度學(xué)習(xí)的潛在應(yīng)用”。Moult表示：“這在當(dāng)時(shí)對(duì)蛋白質(zhì)折疊領(lǐng)域影響頗深。”

Wang, Sheng, et al. "Accurate de novo prediction of protein contact map by ultra-deep learning model."PLoS computational biology13.1 (2017): e1005324.

不久之后，蛋白質(zhì)結(jié)構(gòu)研究小組開始涉足深度學(xué)習(xí)。AlQuraishi和他的團(tuán)隊(duì)率先開發(fā)出了一種方法，可以完全通過神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，也就是所謂的“端到端”（end-to-end）方法，只是效果并不理想。其他人則是各顯神通，努力想要跟上這波科研的新浪潮。

Jones說：“我當(dāng)時(shí)并不清楚自己想用深度學(xué)習(xí)做什么，但我意識(shí)到我需要了解和運(yùn)用深度學(xué)習(xí)。”

在他已經(jīng)開始撰寫資助申請(qǐng)，自尋出路時(shí)，他收到了谷歌DeepMind的一封電子郵件。他們向Jones詢問了CASP競(jìng)賽的情況，并表示愿意提供幫助。“我以為他們的意思是：我們可以提供強(qiáng)大的計(jì)算機(jī)能力，”瓊斯說道。

雙方見面之后，Jones發(fā)現(xiàn)谷歌的野心顯然不止于此。但要實(shí)現(xiàn)自己的雄心壯志，這家科技巨頭公司需要更多的科學(xué)人才。

（2）新秀入場(chǎng)

2016年，Jones開始擔(dān)任谷歌DeepMind的顧問，負(fù)責(zé)一個(gè)后來被稱為AlphaFold的項(xiàng)目；與此同時(shí)，John Jumper正在芝加哥大學(xué)完成他的理論化學(xué)博士學(xué)位。

少年時(shí)期，Jumper自學(xué)了計(jì)算機(jī)編程。他在物理方面也很有天賦。因此，到了選擇大學(xué)專業(yè)時(shí)，盡管他的父母都是工程師且擔(dān)心他找不到工作，但他還是決定學(xué)習(xí)數(shù)學(xué)和物理。

“我一直以為自己會(huì)成為一名研究‘宇宙法則’的物理學(xué)家，”Jumper說。“我一直熱愛探索宇宙真理的這一理念。”

作為一名本科生，John Jumper學(xué)習(xí)了物理和數(shù)學(xué)，然后找到了一份創(chuàng)建蛋白質(zhì)計(jì)算機(jī)模擬的工作。這些經(jīng)歷使他能夠領(lǐng)導(dǎo)谷歌DeepMind 的AlphaFold項(xiàng)目。圖源：John Jumper

在范德比爾特大學(xué)讀本科時(shí)，他與費(fèi)米國(guó)家加速器實(shí)驗(yàn)室的研究人員合作，研究夸克（quarks）這種亞原子粒子的奇特屬性。一天，當(dāng)他和研究人員坐在一起吃午飯時(shí)，他得知了一個(gè)壞消息。“那么，我們正在進(jìn)行的這項(xiàng)實(shí)驗(yàn)什么時(shí)候才能啟動(dòng)呢？”Jumper回憶自己曾這樣問他們。其中一位教授說，他可能退休前等不到了。另一位年紀(jì)稍長(zhǎng)的教授說，他可能都活不到那一天。

“我希望自己做科研耗費(fèi)的時(shí)間比兩位教授說的短一點(diǎn)，”Jumper說。在完成本科學(xué)業(yè)后，他參與了一個(gè)理論凝聚態(tài)物質(zhì)物理學(xué)的博士課程但很快就輟學(xué)了。他在D.E. Shaw研究公司找到了一份工作，這是一家紐約的公司，當(dāng)時(shí)正在進(jìn)行蛋白質(zhì)基本模擬的研究。通過了解蛋白質(zhì)如何運(yùn)動(dòng)和變化，他們希望能更好地理解各種疾病的機(jī)制，例如肺癌。

這是Jumper第一次意識(shí)到自己工作的潛在重要性。“這關(guān)乎健康和延長(zhǎng)人們的壽命，”他說。在接下來的三年里，Jumper在公司的超級(jí)計(jì)算機(jī)上對(duì)蛋白質(zhì)的運(yùn)動(dòng)進(jìn)行了建模，這些超級(jí)計(jì)算機(jī)是專門為更快地模擬分子而建造的。“有時(shí)候，我在周二一天做的模擬比我整個(gè)博士期間要做的還多，”他說。

2011年，他決定再次嘗試讀研，這次是在芝加哥大學(xué)學(xué)習(xí)理論化學(xué)。他仍然對(duì)蛋白質(zhì)結(jié)構(gòu)和運(yùn)動(dòng)感興趣。但他對(duì)學(xué)術(shù)界的緩慢進(jìn)展感到沮喪。“我再也無法使用我在D.E. Shaw公司用過的那種定制計(jì)算機(jī)硬件了，”Jumper說。他想知道是否可以使用人工智能（當(dāng)時(shí)被稱為統(tǒng)計(jì)物理）來實(shí)現(xiàn)快速模擬，而這通常需要先進(jìn)的機(jī)器。他開始涉足機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。

在此期間，他也開始思考蛋白質(zhì)折疊問題。他覺得這個(gè)問題應(yīng)該可以用蛋白質(zhì)數(shù)據(jù)庫(kù)中的訓(xùn)練數(shù)據(jù)來解決到2012年，該數(shù)據(jù)庫(kù)已包含超過76,000種蛋白質(zhì)結(jié)構(gòu)。

Jumper說：“我當(dāng)時(shí)相信數(shù)據(jù)量已經(jīng)足夠多了，但是想法還不夠成熟。”

2017年，Jumper聽說谷歌DeepMind開始涉足蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。他剛剛完成博士學(xué)位，讀博期間恰好主攻利用機(jī)器學(xué)習(xí)來模擬蛋白質(zhì)折疊和動(dòng)態(tài)。于是，他申請(qǐng)了谷歌的研究科學(xué)家職位。

“這個(gè)項(xiàng)目當(dāng)時(shí)處于保密階段，”他說。如果他在面試中提到蛋白質(zhì)折疊，DeepMind團(tuán)隊(duì)就會(huì)轉(zhuǎn)移話題。“您轉(zhuǎn)移話題太多次的話，只會(huì)讓我更加確定貴公司在做什么。”Jumper說。

谷歌 DeepMind 總部位于倫敦。圖源：Buildington

2017年10月，他來到了DeepMind位于倫敦的辦公室。在顧問Jones的幫助下，團(tuán)隊(duì)已經(jīng)開始深入開發(fā)AlphaFold。“那會(huì)兒真的太有意思了，我們不斷提出各種想法，”Jones說。“最終會(huì)有一個(gè)比較好的核心想法脫穎而出，然后他們便開始全力推進(jìn)。”

為了訓(xùn)練算法，DeepMind團(tuán)隊(duì)使用了超過140,000個(gè)來自蛋白質(zhì)數(shù)據(jù)庫(kù)的蛋白質(zhì)結(jié)構(gòu)。他們將這些信息輸入到一個(gè)卷積網(wǎng)絡(luò)中，但并沒有對(duì)AI架構(gòu)本身進(jìn)行太多改動(dòng)。“這是‘標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)’，”Jumper說道。

到了2018年春季，AlphaFold準(zhǔn)備參加CASP，與“正統(tǒng)的”蛋白質(zhì)科學(xué)家們同臺(tái)競(jìng)技。“有點(diǎn)像一級(jí)方程式賽車，”Jones回憶道。“你認(rèn)為自己建造了最好的賽車，但你不知道其他車隊(duì)的實(shí)力如何。”由于風(fēng)險(xiǎn)很高，DeepMind團(tuán)隊(duì)討論是否應(yīng)匿名參賽，因?yàn)樗麄儾幌氡划?dāng)眾羞辱。

Jones說：“沒有人想失敗。”在學(xué)術(shù)界，失敗是工作的一部分；你失敗了，只能繼續(xù)前行，因?yàn)槟銊e無選擇。“但如果是一家價(jià)值數(shù)十億美元的科技公司，那么失敗的嘗試顯然會(huì)很讓公司看著狼狽。”

他們最終決定以谷歌DeepMind的名義提交參賽成果。在12月會(huì)議開始前幾個(gè)月，Jones收到了CASP組織方的回復(fù)，他們建議DeepMind團(tuán)隊(duì)線下參加會(huì)議，因?yàn)锳lphaFold表現(xiàn)非常出色。

雖然他們?cè)陬A(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)方面的準(zhǔn)確性大約是第二名的2.5倍，但并非絕對(duì)碾壓。不過，他們的凱旋依舊給人留下了深刻印象。“顯然，有趣的事情正在上演，”Moult說道。

（3）重啟算法

這次勝利對(duì)DeepMind團(tuán)隊(duì)來說本應(yīng)是一針強(qiáng)心劑，但他們知道自己離真的解決蛋白質(zhì)折疊問題還相距甚遠(yuǎn)。幾個(gè)月前，Hassabis將團(tuán)隊(duì)成員召集在一起。“我們的目標(biāo)是否是真正解決這個(gè)問題？”Jumper回憶起他當(dāng)時(shí)說的話。“如果這不是我們的目標(biāo)，那我們就著手解決能夠真正產(chǎn)生巨大影響的問題。”

John Jumper懷疑生物學(xué)家已經(jīng)研究了足夠的蛋白質(zhì)結(jié)構(gòu)來解決蛋白質(zhì)折疊問題。 2017年開始在谷歌DeepMind工作的Jumper 說：“我相信數(shù)據(jù)已經(jīng)足夠了。”但“想法還不夠”。圖源：Google DeepMind

憑借在物理學(xué)、化學(xué)、生物學(xué)和計(jì)算領(lǐng)域的多重背景，Jumper在頭腦風(fēng)暴會(huì)議上分享了獨(dú)到的見解。很快，他開始領(lǐng)導(dǎo)這個(gè)從六人擴(kuò)展到十五人的團(tuán)隊(duì)。“他們?cè)谧鲆患芴貏e的事情，”Raphael Townshend評(píng)價(jià)道。2019年，他曾在谷歌DeepMind實(shí)習(xí)，后來自己成立了AI驅(qū)動(dòng)的生物技術(shù)公司Atomic AI。

在學(xué)術(shù)界，專家們經(jīng)常各自為政，負(fù)責(zé)獨(dú)立的項(xiàng)目，很少有合作。而在DeepMind，統(tǒng)計(jì)學(xué)、結(jié)構(gòu)生物學(xué)、計(jì)算化學(xué)、軟件工程等領(lǐng)域的專家們協(xié)同合作，共同解決蛋白質(zhì)折疊問題。他們還擁有谷歌強(qiáng)大的財(cái)政和計(jì)算資源支持。“作為博士生，我可能要花幾個(gè)月的時(shí)間才能完成的事情，在這里一天內(nèi)就能完成，”Townshend說。

他說，倫敦DeepMind辦公室氛圍活躍，而這種活力很大程度上歸功于Jumper。“我覺得他是一個(gè)真正的天才，同時(shí)也是一個(gè)非常謙遜的人，團(tuán)隊(duì)成員都非常喜歡他。”計(jì)算機(jī)科學(xué)家Ellen Zhong這樣評(píng)價(jià)道。2021年，她曾在DeepMind實(shí)習(xí)，現(xiàn)任普林斯頓大學(xué)的助理教授。

在Jumper的領(lǐng)導(dǎo)下，團(tuán)隊(duì)對(duì)AlphaFold進(jìn)行了重構(gòu)。他們?cè)O(shè)計(jì)了一種新型的Transformer架構(gòu)這是一種深度學(xué)習(xí)技術(shù)，“在過去五年中推動(dòng)了幾乎每一次機(jī)器學(xué)習(xí)領(lǐng)域的突破，”Townshend說道。神經(jīng)網(wǎng)絡(luò)通過調(diào)整神經(jīng)元連接的強(qiáng)度來創(chuàng)建更精確的數(shù)據(jù)表征，主要是關(guān)于蛋白質(zhì)進(jìn)化和結(jié)構(gòu)的數(shù)據(jù)。它通過第二個(gè)Transformer架構(gòu)運(yùn)行這些數(shù)據(jù)，以預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。然后，該算法會(huì)將預(yù)測(cè)所得的3D結(jié)構(gòu)與修訂后的數(shù)據(jù)結(jié)合起來，返回到Transformer架構(gòu)中運(yùn)行數(shù)次，以達(dá)到提高蛋白質(zhì)3D結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性的效果。

變革性的架構(gòu)

當(dāng)他們剛開始研發(fā)AlphaFold2時(shí)，他們的算法“很糟糕，但沒有我們預(yù)期的那么糟糕，”Jumper說。“（它）輸出了一些看起來有點(diǎn)像蛋白質(zhì)的螺旋結(jié)構(gòu)。”但隨著對(duì)算法的進(jìn)一步優(yōu)化，他們注意到預(yù)測(cè)的效率和準(zhǔn)確性大幅提升。

“這實(shí)際上讓人感到害怕，”Jumper說。如果它表現(xiàn)得太好，通常意味著“你做錯(cuò)了一些事情。”但檢查過后，他們沒有發(fā)現(xiàn)問題，優(yōu)化后的算法就是有效。

團(tuán)隊(duì)決定進(jìn)行一次內(nèi)部實(shí)驗(yàn)，檢驗(yàn)他們的系統(tǒng)是否對(duì)生物學(xué)家有幫助。他們識(shí)別出大約50篇發(fā)表在《科學(xué)》、《自然》和《細(xì)胞》等頂級(jí)期刊上的論文，這些論文不僅描述了新的蛋白質(zhì)結(jié)構(gòu)，還基于結(jié)構(gòu)分享了有關(guān)蛋白質(zhì)功能的深刻見解。他們想看看AlphaFold2的效果能否與實(shí)驗(yàn)人員費(fèi)時(shí)費(fèi)力的實(shí)驗(yàn)方法相媲美。

他們輸入了氨基酸序列，然后開啟了AlphaFold2的預(yù)測(cè)引擎。對(duì)于每個(gè)輸入的序列，AlphaFold2預(yù)測(cè)出的蛋白質(zhì)結(jié)構(gòu)都接近論文中實(shí)驗(yàn)所得的結(jié)果。然而，在團(tuán)隊(duì)看來，這還不夠準(zhǔn)確。這些結(jié)構(gòu)缺少實(shí)驗(yàn)人員發(fā)現(xiàn)的關(guān)鍵細(xì)節(jié)。“你感覺好像已經(jīng)跑完了比賽，卻發(fā)現(xiàn)其實(shí)只完成了一半，”Jumper說道。

接下來的六個(gè)月里，團(tuán)隊(duì)一點(diǎn)一點(diǎn)的改進(jìn)系統(tǒng)。距離2020年CASP競(jìng)賽的蛋白質(zhì)候選名單發(fā)布還有幾周時(shí)，他們進(jìn)行了另一次有用性測(cè)試。Jumper對(duì)這次測(cè)試結(jié)果感到滿意。于是，谷歌DeepMind在2020年春季向CASP提交了他們的預(yù)測(cè)效果，然后等待評(píng)估結(jié)果。

（4）學(xué)科大地震

初夏時(shí)節(jié)，Moult收到了一位CASP評(píng)估人員發(fā)給他的電子郵件：“看看這個(gè)，相當(dāng)令人印象深刻。”郵件附上了由谷歌DeepMind團(tuán)隊(duì)提出的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)解決方案。Moult確實(shí)被震撼到了，但他認(rèn)為這是單一案例，不可復(fù)現(xiàn)。

然后他收到了另一封郵件，然后又一封郵件。“奇怪了，”他回憶自己當(dāng)時(shí)的感受。他收到了三個(gè)，四個(gè)，許多個(gè)接近完美的蛋白質(zhì)預(yù)測(cè)結(jié)果而且全部來自DeepMind團(tuán)隊(duì)。到了夏末，“我們迅速意識(shí)到……發(fā)生了非常非常不同尋常的事情，”Moult說道。

CASP的評(píng)估人員通過比較預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)與其經(jīng)過驗(yàn)證的實(shí)驗(yàn)結(jié)構(gòu)來評(píng)分。如果模型預(yù)測(cè)和實(shí)驗(yàn)結(jié)果一一對(duì)應(yīng)，十分完美，那么得分是100分。Moult一直認(rèn)為，90以上的分?jǐn)?shù)表明算法有效地解決了蛋白質(zhì)的結(jié)構(gòu)。AlphaFold的大多數(shù)預(yù)測(cè)結(jié)果都達(dá)到或超過了90分。

會(huì)議前幾個(gè)月，Moult通過電話將這個(gè)消息分享給了Jumper。“我（興奮地）當(dāng)場(chǎng)大聲咒罵，”Jumper回憶道。“我妻子還關(guān)心地問我還好嗎。”

2020年12月，在新冠疫情爆發(fā)不到一年的時(shí)間里，Jumper在CASP在線會(huì)議上通過Zoom展示了AlphaFold2。

像其他與會(huì)者一樣，Jones也在家中觀看。“我當(dāng)時(shí)就呆住了……看著眼前發(fā)生的一切，”他說。“因?yàn)橥虏辉谏磉?hellip;…我們都被封鎖在家，無法分享這一切。”

對(duì)于任何不是神經(jīng)網(wǎng)絡(luò)專家的人來說，這些想法很復(fù)雜。即便如此，結(jié)論卻很明確。DeepMind已經(jīng)解決了蛋白質(zhì)折疊問題中的結(jié)構(gòu)預(yù)測(cè)部分。AlphaFold2能夠基于氨基酸序列準(zhǔn)確預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。

“啊，我的最愛研究課題走到了盡頭，”Jones回憶道。“DeepMind終結(jié)了比賽，這就是結(jié)局。”

多年來，Anastassis Perrakis一直為CASP競(jìng)賽貢獻(xiàn)未發(fā)表的實(shí)驗(yàn)結(jié)果。當(dāng)他看到AlphaFold2準(zhǔn)確預(yù)測(cè)出他的團(tuán)隊(duì)煞費(fèi)苦心解析出的蛋白質(zhì)結(jié)構(gòu)時(shí)，他感到心里咯噔一下。

雖然疫情被獨(dú)自困在家里時(shí)，但科學(xué)家們一致認(rèn)為蛋白質(zhì)科學(xué)的世界已經(jīng)發(fā)生了永久性的改變。當(dāng)這個(gè)世界的“居民”眺望眼前的新景色時(shí)，他們不由得問出了同一個(gè)問題：接下來該怎么辦？

余波

（1）驚訝之余，敬畏之心

結(jié)構(gòu)生物學(xué)突然失去結(jié)構(gòu)性了。

Silvio Tosatto從CASP創(chuàng)立早期就開始參與相關(guān)賽事了，他說，剛開始的時(shí)候，很多人陷入了深思。一些結(jié)構(gòu)生物學(xué)家擔(dān)心他們的工作將不復(fù)存在，另一些則產(chǎn)生了抵觸心理，聲稱AlphaFold2不夠準(zhǔn)確。

有些計(jì)算生物學(xué)家已經(jīng)為解決蛋白質(zhì)折疊問題付出了數(shù)十年的心血，但當(dāng)這一刻真的到來時(shí)，他們的感受是苦樂參半的。在CASP結(jié)束之后的一篇博客文章中，AlQuraishi引用了一位與會(huì)者的話，形容自己感覺像是孩子第一次走出家門的父母。

哥倫比亞大學(xué)數(shù)學(xué)基因組學(xué)項(xiàng)目的系統(tǒng)生物學(xué)家 Mohammed AlQuraishi 希望，到2040年，深度學(xué)習(xí)能夠模擬整個(gè)細(xì)胞及其內(nèi)部的所有結(jié)構(gòu)和動(dòng)態(tài)。圖源：Nicole Pereira

但是，即便對(duì)這個(gè)耀眼的新工具感到惴惴不安，許多科學(xué)家還是非常興奮。那些不進(jìn)行結(jié)構(gòu)研究的人過去必須與結(jié)構(gòu)生物學(xué)家合作來確定蛋白質(zhì)結(jié)構(gòu)，現(xiàn)在他們只需按幾個(gè)按鈕就可以自己得出蛋白質(zhì)的結(jié)構(gòu)。

媒體口中的AlphaFold2成為了“改變一切”的新人工智能突破。但是，科學(xué)家們花了數(shù)月甚至數(shù)年來剖析AlphaFold2的優(yōu)缺點(diǎn)。Jumper演講約六個(gè)月后，谷歌DeepMind正式發(fā)布了這款產(chǎn)品并分享了AlphaFold2的底層代碼。“AlphaFold2發(fā)布的第二天，我們就嘗試將它安裝到我們的GPU服務(wù)器上了，”Perrakis表示。生物學(xué)家們開始了探索。

“我原以為（AlphaFold2）會(huì)失敗，”Thornton說。“但實(shí)際上它卻取得了巨大的成功。”

Anastassis Perrakis向CASP貢獻(xiàn)了實(shí)驗(yàn)蛋白質(zhì)結(jié)構(gòu)，計(jì)算生物學(xué)家在其上測(cè)試了他們的方法。“我很高興看到[這些方法]失敗，”他開玩笑說。 “這不是競(jìng)爭(zhēng)，但我們喜歡在科學(xué)上互相取笑。”

科學(xué)家們逐漸意識(shí)到，AlphaFold2可能并不會(huì)威脅到他們的工作，而是加速研究的催化劑。它不僅沒有使結(jié)構(gòu)生物學(xué)家失業(yè)，反而為他們提供了一種新的工具，使他們的工作更加出色。“如果你認(rèn)為結(jié)構(gòu)生物學(xué)家只是技術(shù)專家，他們的工作僅僅是弄清蛋白質(zhì)的結(jié)構(gòu)，那么他們當(dāng)然會(huì)失業(yè)，”Walden說道。但這就像說因?yàn)橛辛巳祟惢蚪M計(jì)劃，基因組學(xué)家不能再發(fā)表描述單個(gè)基因序列的論文，所以他們會(huì)失業(yè)一樣。

在許多情況下，結(jié)構(gòu)生物學(xué)家的目標(biāo)其實(shí)是探索蛋白質(zhì)的功能。有了AlphaFold2，他們可以在幾分鐘內(nèi)提出假設(shè)，而不是等待數(shù)月甚至數(shù)年來通過實(shí)驗(yàn)弄清蛋白質(zhì)的結(jié)構(gòu)。

Adams認(rèn)為：“這給結(jié)構(gòu)生物學(xué)帶來了許多有益的改變，而非壞處，讓這個(gè)領(lǐng)域更加令人興奮。”

然而，它并沒有立即像一些人預(yù)測(cè)的那樣加速各種新藥的研發(fā)，因?yàn)檠芯咳藛T很快發(fā)現(xiàn)這個(gè)工具也有其局限性。Perrakis表示，AlphaFold2的預(yù)測(cè)并不完美，需要實(shí)驗(yàn)驗(yàn)證，但“你可以更快地進(jìn)入實(shí)際的結(jié)構(gòu)研究”。現(xiàn)在，當(dāng)他的學(xué)生開始一個(gè)新項(xiàng)目時(shí)，他們會(huì)首先使用AlphaFold2預(yù)測(cè)特定蛋白質(zhì)的結(jié)構(gòu)，然后進(jìn)行實(shí)驗(yàn)驗(yàn)證。

Perrakis認(rèn)為自己和其他研究人員可能仍會(huì)在某些情況下用到X射線晶體學(xué)。但是，為了初步構(gòu)建蛋白質(zhì)結(jié)構(gòu)，許多人開始將深度學(xué)習(xí)預(yù)測(cè)與先進(jìn)的電子顯微鏡技術(shù)如冷凍電鏡（cryo-EM）相結(jié)合，這項(xiàng)技術(shù)的核心是快速冷凍生物樣本并用電子轟擊它們。解析了結(jié)構(gòu)之后，他們便可以著手研究蛋白質(zhì)的功能問題。AlQuraishi表示，AlphaFold2的出現(xiàn)加速了冷凍電鏡的應(yīng)用。

冷凍電鏡（Cryo-EM）的工作原理。

這種轉(zhuǎn)變已經(jīng)開始。2022年6月，《科學(xué)》雜志的一期特刊揭示了人類核孔復(fù)合體的近原子結(jié)構(gòu)。這個(gè)由30種不同蛋白質(zhì)構(gòu)成的龐大而復(fù)雜的結(jié)構(gòu)幾十年來一直是生物學(xué)上的難題�？茖W(xué)家們使用AlphaFold2的預(yù)測(cè)結(jié)果來彌補(bǔ)冷凍電鏡未能解決的蛋白質(zhì)結(jié)構(gòu)問題。

Jumper表示，看到這篇論文中的其他科學(xué)家使用AlphaFold2取得了生物學(xué)上的突破，他在那一刻意識(shí)到“（AlphaFold）確實(shí)非常、非常重要”。

在過去三年里，像核孔復(fù)合體這樣的突破標(biāo)志著蛋白質(zhì)科學(xué)領(lǐng)域的一個(gè)又一個(gè)里程碑。迄今為止，AlphaFold2預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)已被用于研究疾病和開發(fā)新的藥物輸送工具。“對(duì)我們來說，這非常有幫助，”博德研究所的分子生物學(xué)家Feng Zhang表示。他使用AlphaFold2設(shè)計(jì)了一種將藥物輸送到人體細(xì)胞內(nèi)的分子注射器。了解蛋白質(zhì)的結(jié)構(gòu)還可以輔助藥物開發(fā)，例如，它能幫助研究人員判斷哪些分子能夠附著在蛋白質(zhì)結(jié)構(gòu)上，并改變其行為。盡管有些研究表明，AlphaFold2的預(yù)測(cè)結(jié)果在藥物研發(fā)領(lǐng)域不如實(shí)驗(yàn)所得有用，但也有研究證明它可以發(fā)揮相同的作用。人們還在探索人工智能工具對(duì)藥物開發(fā)的綜合影響。

另一方面，一些生物學(xué)家已經(jīng)不滿足于AlphaFold2在識(shí)別已知蛋白質(zhì)結(jié)構(gòu)和功能方面的應(yīng)用，轉(zhuǎn)向設(shè)計(jì)自然界中不存在的蛋白質(zhì)，這種技術(shù)對(duì)創(chuàng)新藥物研發(fā)來說十分關(guān)鍵。

（2）新前沿

看到Jumper在2020年CASP會(huì)議上的演講后，Baker立刻回到了他的Rosetta算法的工作上。當(dāng)時(shí)谷歌尚未分享AlphaFold2的底層源代碼。盡管如此，“我們開始嘗試他們分享的一些想法，”Baker說。谷歌DeepMind團(tuán)隊(duì)在《自然》期刊上發(fā)表AlphaFold2的當(dāng)天，Baker和他的團(tuán)隊(duì)宣布了RoseTTAFold，這是一種與準(zhǔn)確度能與AlphaFold媲美的預(yù)測(cè)模型。RoseTTAFold同樣使用深度學(xué)習(xí)來預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，但其底層架構(gòu)與AlphaFold2大相徑庭。

Tosatto表示：“科學(xué)理念一旦被提出，其他人就可以逆向工程并在此基礎(chǔ)上進(jìn)行構(gòu)建，至少那些有足夠多資源的人可以做到。”

RoseTTAFold并不是AlphaFold唯一的競(jìng)爭(zhēng)者。Meta也開發(fā)了自己的算法來解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)或相關(guān)問題。一些公司，已經(jīng)不局限于蛋白質(zhì)領(lǐng)域，而是使用深度學(xué)習(xí)來解析RNA結(jié)構(gòu)，這其中就有Townshend的生物科技初創(chuàng)公司Atomic AI，。然而，在單一結(jié)構(gòu)預(yù)測(cè)領(lǐng)域，迄今為止還沒有人能夠達(dá)到AlphaFold的精確度，Thornton表示：“我相信有些公司也可以做到，但我認(rèn)為很難再現(xiàn)AlphaFold當(dāng)初帶來的震撼。”

去年， David Baker（如圖）與John Jumper和Demis Hassabi因其在使用人工智能研究和設(shè)計(jì)蛋白質(zhì)方面的革命性工作，共同獲得了生物學(xué)和生物醫(yī)學(xué)領(lǐng)域的知識(shí)前沿獎(jiǎng)。圖源：BBVA Foundation

至少對(duì)外而言，Baker和Jumper繼續(xù)延續(xù)著CASP的良性競(jìng)爭(zhēng)傳統(tǒng)。“他們可能覺得我在與他們競(jìng)爭(zhēng)，但我覺得我們只是從他們的工作中獲取靈感，”Baker說道。

Jumper對(duì)此表示歡迎，他說：“大家共同推動(dòng)這門科學(xué)的發(fā)展真的很重要。如果AlphaFold的智慧結(jié)晶后繼無人，我覺得是件很悲哀的事情。”

Baker已經(jīng)扛起了這份傳承的重任，并在嘗試將之運(yùn)用到蛋白質(zhì)科學(xué)的新前沿中：蛋白質(zhì)設(shè)計(jì)。由于生物學(xué)家現(xiàn)在只能研究自然界已經(jīng)存在的蛋白質(zhì)，所以Baker設(shè)想了一門科學(xué)，能夠設(shè)計(jì)出新的蛋白質(zhì)，專門用來控制陽光、分解塑料或研發(fā)新藥或疫苗。

荷蘭胡布勒支研究所的結(jié)構(gòu)生物學(xué)家Danny Sahtoe曾在Baker指導(dǎo)下做博士后研究，他表示：“目前自然界中不同類型的蛋白質(zhì)結(jié)構(gòu)或形狀的數(shù)量是相當(dāng)有限的。理論上，應(yīng)該有更多可能的形狀，而如果你能生成更多形狀的蛋白質(zhì)，那么就意味著你能擁有更多不同功能的蛋白質(zhì)。”

作為華盛頓大學(xué)蛋白質(zhì)設(shè)計(jì)研究所的主任，Baker認(rèn)為蛋白質(zhì)設(shè)計(jì)本質(zhì)上是“逆蛋白質(zhì)折疊問題”。與其將氨基酸序列輸入深度學(xué)習(xí)算法并讓它輸出蛋白質(zhì)結(jié)構(gòu)，蛋白質(zhì)設(shè)計(jì)者應(yīng)該做的是將一個(gè)結(jié)構(gòu)輸入算法并讓它輸出一個(gè)序列，然后利用這個(gè)序列在實(shí)驗(yàn)室里生成蛋白質(zhì)。

AlphaFold和RoseTTAFold本身不能輸出這些序列，它們的編程邏輯是相反的。但Baker創(chuàng)建了RoseTTAFold的設(shè)計(jì)專用迭代版，基于其神經(jīng)架構(gòu)，被稱為RoseTTAFold diffusion或RF diffusion。

Sahtoe說，蛋白質(zhì)設(shè)計(jì)由來已久，但深度學(xué)習(xí)加速了這一領(lǐng)域的發(fā)展，讓設(shè)計(jì)符合現(xiàn)實(shí)的蛋白質(zhì)計(jì)算機(jī)模型變得“極其快速”。以前，接受過專業(yè)培訓(xùn)的蛋白質(zhì)設(shè)計(jì)師需要幾周或幾個(gè)月的時(shí)間來創(chuàng)建新蛋白質(zhì)的骨架，但現(xiàn)在他們可以在幾天內(nèi)，甚至一夜之間完成。

Foldit是由Baker實(shí)驗(yàn)室開發(fā)的在線游戲，玩家可以借此預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。

Baker還更新了Foldit，將蛋白質(zhì)設(shè)計(jì)融入其中。玩家不僅可以構(gòu)建蛋白質(zhì)結(jié)構(gòu)，還可以動(dòng)手設(shè)計(jì)蛋白質(zhì)。這個(gè)改變頗具成效，Baker的實(shí)驗(yàn)室已經(jīng)發(fā)表了幾篇關(guān)于玩家設(shè)計(jì)的蛋白質(zhì)的論文。Baker在華盛頓大學(xué)的同事指導(dǎo)的一名研究生就是世界上最頂尖的Foldit玩家之一。

“我們真的理解蛋白質(zhì)折疊嗎？如果我們能夠設(shè)計(jì)出新的序列，并使其折疊成新的結(jié)構(gòu)，那么這表明我們對(duì)蛋白質(zhì)折疊有著相當(dāng)豐富的了解，”Baker說。“從某種意義上說，這也可以被視為蛋白質(zhì)折疊問題的解決方案。”

（3）信任練習(xí)

AlphaFold2的成功無疑改變了生物學(xué)家對(duì)人工智能的態(tài)度。長(zhǎng)期以來，許多實(shí)驗(yàn)生物學(xué)家不信任計(jì)算方法，因?yàn)樗麄冎滥承C(jī)器學(xué)習(xí)方法可以使數(shù)據(jù)看起來比實(shí)際更好。但是，谷歌DeepMind團(tuán)隊(duì)“明確地證明了你可以把它用在嚴(yán)肅的科研工作中，”AlQuraishi說道�，F(xiàn)在如果還有人對(duì)此持懷疑態(tài)度，其他人便會(huì)反駁道：“好吧，那你怎么看AlphaFold呢？”

推動(dòng)了卷積網(wǎng)絡(luò)發(fā)展的計(jì)算生物學(xué)家許錦波說：“現(xiàn)在生物學(xué)家相信我們的預(yù)測(cè)結(jié)果了，他們以前總是懷疑我們的預(yù)測(cè)是否可靠。”

這種信任部分源于AlphaFold2平臺(tái)的一個(gè)特性：它不僅生成蛋白質(zhì)的3D模型，還按照從0到100的信心等級(jí)對(duì)結(jié)構(gòu)的不同部分進(jìn)行評(píng)分，以此來自我評(píng)估預(yù)測(cè)的準(zhǔn)確性。

2022年7月，在谷歌DeepMind發(fā)布2180萬種蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)后（幾乎涵蓋了已知的所有蛋白質(zhì)）Adams決定分析AlphaFold2的自我報(bào)告。他將預(yù)測(cè)結(jié)果與這些蛋白質(zhì)的已解結(jié)構(gòu)進(jìn)行比較，并獨(dú)立評(píng)估其準(zhǔn)確性。

“好消息是，當(dāng)AlphaFold認(rèn)為自己是正確的時(shí)候，它往往確實(shí)是對(duì)的，”Adams說道。“當(dāng)它認(rèn)為自己不對(duì)時(shí)，現(xiàn)實(shí)情況往往也是如此。”但是，在大約10%的情況下，當(dāng)AlphaFold2對(duì)其預(yù)測(cè)“非常自信”（信心等級(jí)得分至少90分）時(shí)，其預(yù)測(cè)結(jié)果其實(shí)與實(shí)驗(yàn)所得有出入，所以它自信過頭了。

AI系統(tǒng)似乎有某種自我懷疑的能力，可能會(huì)導(dǎo)致人們過度依賴其結(jié)論。大多數(shù)生物學(xué)家僅僅將AlphaFold2視為一種預(yù)測(cè)工具，但有些人步子邁得太大了。一些以前與結(jié)構(gòu)生物學(xué)家合作的細(xì)胞生物學(xué)家和生物化學(xué)家已經(jīng)用AlphaFold2完全取代了結(jié)構(gòu)生物學(xué)家，并將其預(yù)測(cè)結(jié)果奉為圭臬。Perrakis說，有時(shí)科學(xué)家發(fā)表的論文中包含的蛋白質(zhì)結(jié)構(gòu)在任何結(jié)構(gòu)生物學(xué)家看來都顯然是錯(cuò)誤的。“而他們卻說：‘這可是AlphaFold預(yù)測(cè)的結(jié)果。’”

在美國(guó)國(guó)立衛(wèi)生研究院，Lauren Porter研究了可以改變構(gòu)象的蛋白質(zhì)，稱為折疊轉(zhuǎn)換蛋白質(zhì)。他們“挑戰(zhàn)了序列編碼一種結(jié)構(gòu)的范式，”她說，“因?yàn)轱@然它們不編碼一種結(jié)構(gòu)。”圖源：Lauren Porter

“有些人對(duì)這些深度學(xué)習(xí)模型的能力過于自信，實(shí)在太過自信了，”美國(guó)國(guó)立衛(wèi)生研究院的研究員Lauren Porter這樣認(rèn)為。“我們應(yīng)該盡可能多地使用這些深度學(xué)習(xí)模型，但我們也需要以謹(jǐn)慎和謙遜的態(tài)度對(duì)待它們。”

Jones聽說有科學(xué)家想通過計(jì)算方法確定蛋白質(zhì)結(jié)構(gòu)，但在申請(qǐng)資金時(shí)卻遇到了困難。Jones說：“普遍的看法是DeepMind已經(jīng)做到了，為什么你還要繼續(xù)做？”但他認(rèn)為這項(xiàng)工作仍有必要繼續(xù)下去，因?yàn)锳lphaFold2并非完美無缺。

他表示：“（AlphaFold2）與實(shí)際科研要求還存在非常大的差距，有些事情它顯然無法做到。”

雖然AlphaFold2在預(yù)測(cè)小而簡(jiǎn)單的蛋白質(zhì)結(jié)構(gòu)方面表現(xiàn)出色，但在預(yù)測(cè)包含多個(gè)部分的蛋白質(zhì)時(shí)其準(zhǔn)確性較低。它也無法兼顧蛋白質(zhì)的環(huán)境或與其他分子的結(jié)合，而這些因素會(huì)在自然狀態(tài)下改變蛋白質(zhì)的結(jié)構(gòu)。有時(shí)，蛋白質(zhì)需要被某些離子、鹽類物質(zhì)或金屬類物質(zhì)包圍才能正確折疊。

Walden說：“目前，AlphaFold還無法確定蛋白質(zhì)所處的環(huán)境。”她的小組已經(jīng)通過實(shí)驗(yàn)確定了幾種AlphaFold2無法預(yù)測(cè)的結(jié)構(gòu)。

AlphaFold2對(duì)集中動(dòng)態(tài)蛋白質(zhì)的預(yù)測(cè)結(jié)果也不是很好，這些蛋白質(zhì)的功能也非常重要。有些蛋白質(zhì)的形狀會(huì)發(fā)生改變，因此被稱為折疊轉(zhuǎn)換蛋白質(zhì)（fold-switching protein）。此類蛋白質(zhì)不是靜態(tài)的，它們的形狀隨著與其他分子的相互作用而發(fā)生變化。有些即使具有相同的氨基酸序列，也會(huì)折疊成截然不同的形狀。Porter認(rèn)為，折疊轉(zhuǎn)換蛋白質(zhì)“反駁了序列編碼單一結(jié)構(gòu)的傳統(tǒng)觀點(diǎn)，因?yàn)檫@顯然與現(xiàn)實(shí)不符”。

此處所示的 RfaH 等折疊轉(zhuǎn)換蛋白能夠改變構(gòu)型以執(zhí)行不同的任務(wù)。當(dāng)處于α螺旋形態(tài)時(shí)，RfaH蛋白無法與其目標(biāo)結(jié)合但當(dāng)其轉(zhuǎn)變?yōu)?beta;-折疊時(shí)，就能進(jìn)行結(jié)合。圖源：Lauren Porter

與DeepMind算法訓(xùn)練用到的數(shù)十萬種靜態(tài)單一結(jié)構(gòu)蛋白質(zhì)相比，折疊轉(zhuǎn)換蛋白質(zhì)只有大約100個(gè)，當(dāng)然肯定還有更多尚未被發(fā)現(xiàn)。Porter說，其實(shí)這可能也不是很出人意料，因?yàn)?ldquo;一般來說，這些算法就是為了預(yù)測(cè)單一折疊而設(shè)計(jì)的”。

還有一些內(nèi)在無序蛋白質(zhì)或蛋白質(zhì)區(qū)域缺乏穩(wěn)定結(jié)構(gòu)，就像是汽車經(jīng)銷商門口擺來擺去的充氣玩偶，總是在不停的扭動(dòng)、重組。“它們?cè)诤芏喾矫姹缓鲆暳�，因�(yàn)樗鼈冇悬c(diǎn)煩人，”哥本哈根大學(xué)計(jì)算蛋白質(zhì)生物物理學(xué)教授Kresten Lindorff-Larsen說道。大約44%的人類蛋白質(zhì)存在至少一個(gè)由30個(gè)氨基酸組成的無序區(qū)域。Lindorff-Larsen表示：“這是一個(gè)相對(duì)較大的比例。”

AlphaFold2可以預(yù)測(cè)某些區(qū)域何時(shí)會(huì)內(nèi)在無序的情況，但它無法告訴你這種無序的具體形態(tài)。

對(duì)于Jumper來說，最令他失望的是AlphaFold2無法區(qū)分兩個(gè)僅相差一個(gè)氨基酸的蛋白質(zhì)，也被稱為點(diǎn)突變（point mutation）。他說，點(diǎn)突變有時(shí)會(huì)對(duì)蛋白質(zhì)的結(jié)構(gòu)和功能產(chǎn)生相當(dāng)顯著的影響，但“AlphaFold卻對(duì)它們幾乎視而不見，”基于兩段不同的序列生成相同結(jié)構(gòu)預(yù)測(cè)。

2023年9月，DeepMind發(fā)布了AlphaMissense，這是一種預(yù)測(cè)此類突變影響的深度學(xué)習(xí)算法。它不能顯示結(jié)構(gòu)的變化，但它可以根據(jù)已知病原蛋白中的類似突變，告知用戶該突變是否可能使蛋白質(zhì)致病或誘發(fā)功能障礙。

然而，即使AlphaFold2能夠完美預(yù)測(cè)所有蛋白質(zhì)，它也離模擬現(xiàn)實(shí)中的生物原理相距甚遠(yuǎn)。因?yàn)樵诩?xì)胞中，蛋白質(zhì)從不單獨(dú)行動(dòng)。

（4）細(xì)胞復(fù)雜性

細(xì)胞內(nèi)部復(fù)雜且混亂。細(xì)胞的外膜包裹著一個(gè)擁擠的生化環(huán)境，其中充滿了各種分子成分蛋白質(zhì)、信號(hào)分子、信使RNA、細(xì)胞器等。蛋白質(zhì)相互結(jié)合并與其他分子結(jié)合，這改變了它們的形式和功能。

蛋白質(zhì)并不是單獨(dú)起作用的：它們不斷與其他分子相互作用。創(chuàng)作者Gael McGill寫道，這幅細(xì)胞圖是由真實(shí)蛋白質(zhì)和其他分子的模型組成的，“目的是為了展現(xiàn)細(xì)胞分子‘編排’的復(fù)雜性和藝術(shù)性。”圖源：Evan Ingersoll和Gal McGill, PhD/Digizyme Inc.

AlphaFold2預(yù)測(cè)單個(gè)蛋白質(zhì)結(jié)構(gòu)的能力并沒有幫助生物學(xué)家更好理解復(fù)雜天然環(huán)境中的蛋白質(zhì)。但是，這正是該領(lǐng)域目前正在前進(jìn)的方向。蛋白質(zhì)科學(xué)領(lǐng)域的人工智能巨頭谷歌DeepMind和David Baker的蛋白質(zhì)設(shè)計(jì)研究所，都在優(yōu)化它們的深度學(xué)習(xí)算法，以預(yù)測(cè)蛋白質(zhì)在與其他分子相互作用時(shí)所呈現(xiàn)的結(jié)構(gòu)。

在2024年春天，他們都發(fā)表了有關(guān)在該領(lǐng)域取得相似進(jìn)展的論文。通過更新算法，他們分別發(fā)布了AlphaFold3和RoseTTAFold All-Atom，它們能夠預(yù)測(cè)蛋白質(zhì)與其他蛋白質(zhì)、DNA、RNA和其他小分子結(jié)合時(shí)的結(jié)構(gòu)。

生物學(xué)家也開始對(duì)這些新模型進(jìn)行測(cè)試。目前為止，AlphaFold3比RoseTTAFold All-Atom準(zhǔn)確許多，AlQuraishi表示，但這不是像“AlphaFold2”那樣的技術(shù)飛躍。對(duì)于某些大分子，如RNA結(jié)構(gòu)，其準(zhǔn)確性仍低于其他基于物理學(xué)的系統(tǒng)和實(shí)驗(yàn)。

AlphaFold3 可以預(yù)測(cè)分子復(fù)合物的結(jié)構(gòu)，例如在破壞植物的真菌中發(fā)現(xiàn)的這種酶。在此模型結(jié)構(gòu)中，蛋白質(zhì)（藍(lán)色）與單糖（黃色）和離子（黃色球體）相連。圖源：Google DeepMind

盡管如此，這些新算法朝著正確的方向邁進(jìn)了一步。蛋白質(zhì)與其他分子的相互作用對(duì)其在細(xì)胞中的功能至關(guān)重要。為了開發(fā)可以與蛋白質(zhì)結(jié)合并按需改變其活性的藥物，研究人員需要了解這些復(fù)合物的形態(tài)。然而，Adams說，任何一種算法在短時(shí)間內(nèi)都不太可能催生新的藥物。“這兩種方法的準(zhǔn)確性仍然有限，（但）它們都在力所能及的范圍內(nèi)實(shí)現(xiàn)了巨大進(jìn)步。”

DeepMind的新產(chǎn)品還發(fā)生了一個(gè)重要的變化。此前AlphaFold2的底層代碼是開源的，其他研究人員可以研究該算法，在此基礎(chǔ)上進(jìn)行調(diào)整，以便更好地服務(wù)自己的項(xiàng)目。然而，谷歌迄今為止都未公開AlphaFold3的源代碼，而是將其作為商業(yè)機(jī)密加以保護(hù)。AlQuraishi說：“至少目前，沒有人可以像使用（AlphaFold2）那樣運(yùn)行和使用它。

化學(xué)家兼物理學(xué)家Brenda Rubenstein找到了如何創(chuàng)造性地使用AlphaFold2來預(yù)測(cè)她在布朗大學(xué)研究的蛋白質(zhì)的多種構(gòu)象。圖源：Melissa Shein

即使在AlphaFold3發(fā)布之前，研究人員就已經(jīng)在測(cè)試AlphaFold2，看看它是否能提供有關(guān)不同構(gòu)象下蛋白質(zhì)的有用信息。布朗大學(xué)化學(xué)和物理學(xué)副教授Brenda Rubenstein對(duì)激酶（kinases）這種能激活其他蛋白質(zhì)的蛋白質(zhì)很感興趣。具體來說，她想了解一種誘發(fā)癌癥的激酶的機(jī)制，以此開發(fā)更精準(zhǔn)對(duì)癥的藥物。她的實(shí)驗(yàn)室使用物理學(xué)的方法對(duì)激酶的結(jié)構(gòu)進(jìn)行了建模，即基于牛頓定律繪制原子的3D坐標(biāo)。這個(gè)過程花了兩年半的時(shí)間。

Rubenstein說：“大約一年前，我們開始思考能否加速這個(gè)過程？”他們嘗試以一種創(chuàng)新的方式使用AlphaFold2。通過向算法輸入有關(guān)相關(guān)蛋白質(zhì)的數(shù)據(jù)，她發(fā)現(xiàn)其預(yù)測(cè)不同構(gòu)象激酶的準(zhǔn)確度超過了80%。

AlQuraishi評(píng)價(jià)道，Rubenstein的實(shí)驗(yàn)室為數(shù)不多能夠發(fā)現(xiàn)“如果你以正確的方式‘刺激’AlphaFold，它會(huì)輸出多個(gè)構(gòu)象”的實(shí)驗(yàn)室之一。“這令人鼓舞。”

AlQuraishi希望到2040年，深度學(xué)習(xí)能夠模擬一個(gè)完整的細(xì)胞及其內(nèi)部的所有結(jié)構(gòu)和動(dòng)態(tài)。然而，要實(shí)現(xiàn)這一目標(biāo)，需要在實(shí)驗(yàn)和計(jì)算兩方面取得質(zhì)的飛躍。

（5）非專業(yè)視角

對(duì)于許多生物學(xué)家來說，AlphaFold2是他們一直在等待的突破性技術(shù)。CASP的目標(biāo)是創(chuàng)建能夠基于氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的計(jì)算工具。然而，許多人不禁要問：為什么一個(gè)初出茅廬的新手能夠破解蛋白質(zhì)的奧秘，而那么多專家卻苦苦掙扎了幾十年？

不可否認(rèn)的是，谷歌DeepMind的計(jì)算機(jī)和蛋白質(zhì)科學(xué)團(tuán)隊(duì)為解決這個(gè)問題提供了新的視角。同時(shí)，蛋白質(zhì)科學(xué)已有無數(shù)先驅(qū)為其打下了堅(jiān)實(shí)的基礎(chǔ)，做好了迎接深度學(xué)習(xí)革命的準(zhǔn)備。AlQuraishi說：“這些突破不是憑空出現(xiàn)的。”

到2020年CASP啟動(dòng)時(shí)，許多研究人員預(yù)計(jì)結(jié)構(gòu)預(yù)測(cè)的突破將通過人工智能實(shí)現(xiàn)。“一切都朝著這個(gè)方向發(fā)展，”Townshend 說。但他們沒有想到會(huì)來自一家市值數(shù)十億美元的科技公司，也沒有想到會(huì)這么快。有些人認(rèn)為AlphaFold2并不是全新的科學(xué)成就，而是精妙的工程技術(shù)；有些人對(duì)David Baker的算法沒有獲獎(jiǎng)感到驚訝；還有些人則認(rèn)為谷歌DeepMind坐擁其他公司和團(tuán)隊(duì)無法匹敵的資源，因此不足為奇。

每年大約有100個(gè)實(shí)驗(yàn)室參加CASP，盡管他們已經(jīng)開始采用AI技術(shù)，但他們“可能沒有DeepMind的專業(yè)人才儲(chǔ)備，也沒有同等的算力，”Thornton這樣認(rèn)為。DeepMind“可以使用的算力幾乎是無限的”。

她還推測(cè)，谷歌雖然在蛋白質(zhì)科學(xué)方面缺乏專業(yè)知識(shí)，但這反而可能釋放了他們的創(chuàng)造力。“他們專注于建立一個(gè)強(qiáng)大的神經(jīng)網(wǎng)絡(luò)，”Thornton說。蛋白質(zhì)生物學(xué)家包袱更重。當(dāng)他們開發(fā)AI工具時(shí)，他們希望捕捉蛋白質(zhì)折疊過程中涉及的原子級(jí)分子物理和化學(xué)原理。DeepMind的想法不一樣：我們只需序列數(shù)據(jù)轉(zhuǎn)化為3D結(jié)構(gòu)，至于如何實(shí)現(xiàn)，那無所謂。

Walden說：“他們沒有像此前很多預(yù)測(cè)模型那樣，試圖解決蛋白質(zhì)折疊的問題本身，而是單純用‘蠻力’”去繪制原子在空間中的最終位置。有趣的是，他們反而因此解決了這個(gè)問題。”

普林斯頓大學(xué)計(jì)算機(jī)科學(xué)家Ellen Zhu于2021年在谷歌DeepMind的AlphaFold2團(tuán)隊(duì)實(shí)習(xí)，率先使用深度學(xué)習(xí)與冷凍電鏡相結(jié)合來研究蛋白質(zhì)動(dòng)力學(xué)。圖源：Tori Repp/Fotobuddy for Princeton University

對(duì)一些生物學(xué)家來說，這種方法并沒有完全解決蛋白質(zhì)折疊問題。結(jié)構(gòu)生物學(xué)創(chuàng)立的初心是希望了解氨基酸鏈?zhǔn)侨绾握郫B成蛋白質(zhì)的。大多數(shù)生物學(xué)家認(rèn)為AlphaFold2確實(shí)解決了結(jié)構(gòu)預(yù)測(cè)問題，但卻沒有解決蛋白質(zhì)折疊問題。Ellen Zhong表示：“現(xiàn)在，我們只是擁有了一個(gè)黑匣子，它可以某種方式告訴你最終的折疊狀態(tài)，但實(shí)際上你卻不知道是如何實(shí)現(xiàn)的。”

“這不是科學(xué)家解決問題的方式，”布朗大學(xué)計(jì)算機(jī)科學(xué)家Littman表示。

但約翰霍普金斯大學(xué)生物物理學(xué)榮譽(yù)教授George Rose表示，這聽起來可能像是在‘找茬’，但顯然不是。”AlphaFold2可以根據(jù)對(duì)數(shù)十萬蛋白質(zhì)結(jié)構(gòu)的分析，識(shí)別出給定氨基酸序列潛在折疊模式。但它無法告訴科學(xué)家蛋白質(zhì)折疊過程的任何信息。

“對(duì)于許多人來說，你不需要知道。他們不在乎，”Rose說。“但科學(xué)，至少?gòu)倪^去500年以來……一直致力于理解事物發(fā)生的過程。”為了理解以蛋白質(zhì)為基礎(chǔ)的生命的動(dòng)態(tài)變化、機(jī)制、功能和本質(zhì)，Rose認(rèn)為，你需要具備對(duì)過程的全面了解而深度學(xué)習(xí)算法無法做到這一點(diǎn)。

對(duì)Moult來說，重要的并不是機(jī)器在做的事情他無法理解。“我們都習(xí)慣了機(jī)器做我們無法做到的事情。比如，我跑得不如我的車快，”他說。對(duì)于想要研究蛋白質(zhì)的分子生物學(xué)家來說，只需要大致知道它的結(jié)構(gòu)即可，至于蛋白質(zhì)是如何折疊形成這樣的結(jié)構(gòu)并不重要。

但“在我們真正知道它是如何運(yùn)作之前，我們永遠(yuǎn)不會(huì)有一個(gè)100%可靠的預(yù)測(cè)器，”Porter說。“我們必須理解基本的物理學(xué)，才能做出最有根據(jù)的預(yù)測(cè)。”

AlQuraishi 表示：“我們的目標(biāo)在不斷變化。我確實(shí)認(rèn)為核心問題已經(jīng)解決，現(xiàn)在更加關(guān)心接下來會(huì)發(fā)生什么。”

即使生物學(xué)家之間還存在不少爭(zhēng)辯，其他人已將目光投向了一個(gè)毫無疑問已經(jīng)改變的領(lǐng)域，并開始回顧起近期的發(fā)展。

有時(shí)Perrakis會(huì)懷念以前的工作方式。2022年，他的團(tuán)隊(duì)通過X射線晶體學(xué)解析了一種參與修飾微管的酶的結(jié)構(gòu)（微管microtubules）是形成細(xì)胞結(jié)構(gòu)的巨大棒狀分子）。他說：“我意識(shí)到我再也不會(huì)（這樣做）了，也無法再次感受到在數(shù)月的工作之后首次確定結(jié)構(gòu)帶來的特殊滿足感。”

AlphaFold2并沒有淘汰這些實(shí)驗(yàn)。相反，它揭示了它們的必要性。它將兩個(gè)歷史上截然不同的學(xué)科聯(lián)系在一起，觸發(fā)了一場(chǎng)酣暢淋漓的對(duì)話。

（6）新世界

七十年前，人們認(rèn)為蛋白質(zhì)是一種膠狀物質(zhì)，Porter說。“而現(xiàn)在我們能看到的”：一個(gè)由各種結(jié)構(gòu)構(gòu)成的巨大的蛋白質(zhì)世界，無論它們是自然界中存在的還是設(shè)計(jì)出來的。

蛋白質(zhì)生物學(xué)領(lǐng)域“在AlphaFold出現(xiàn)之后更令人興奮了”，Perrakis說。這種興奮來自于基于蛋白質(zhì)結(jié)構(gòu)促進(jìn)藥物發(fā)現(xiàn)的可能，來自各種假說的層出不窮，來自理解細(xì)胞內(nèi)復(fù)雜相互作用的希望。

“這感覺就像基因組學(xué)革命一樣，”AlQuraishi說。面對(duì)海量數(shù)據(jù)，無論是在濕實(shí)驗(yàn)室還是在計(jì)算機(jī)前的生物學(xué)家都在學(xué)習(xí)如何處理這些數(shù)據(jù)。

但就像在全球范圍內(nèi)激發(fā)的其他人工智能突破一樣，這可能也有一個(gè)天花板。

AlphaFold2的成功建立在大量可用的高質(zhì)量訓(xùn)練數(shù)據(jù)上，也就是勤勤懇懇的實(shí)驗(yàn)人員通過一絲不茍的工作解析的數(shù)十萬種蛋白質(zhì)結(jié)構(gòu)。雖然AlphaFold3和相關(guān)算法在確定分子化合物結(jié)構(gòu)方面取得了一些成功，但其準(zhǔn)確性仍不及對(duì)單蛋白質(zhì)的預(yù)測(cè)。有部分原因就是因?yàn)榭捎玫挠?xùn)練數(shù)據(jù)少了很多。

Thornton 表示，蛋白質(zhì)折疊問題“幾乎是一個(gè)AI解決方案的完美例證”，因?yàn)橄嚓P(guān)算法的訓(xùn)練數(shù)據(jù)來自以統(tǒng)一形式收集的數(shù)十萬種蛋白質(zhì)結(jié)構(gòu)。然而，蛋白質(zhì)數(shù)據(jù)庫(kù)可能是生物學(xué)領(lǐng)域有組織的數(shù)據(jù)共享的特殊案例。沒有高質(zhì)量的數(shù)據(jù)來訓(xùn)練算法，AI模型將無法做出準(zhǔn)確的預(yù)測(cè)。

“我們很幸運(yùn)，”Jumper說。“我們遇到問題的時(shí)候恰逢解決問題的時(shí)機(jī)成熟。”

沒有人知道深度學(xué)習(xí)在解決蛋白質(zhì)折疊問題上的成功是否會(huì)延續(xù)到其他科學(xué)領(lǐng)域，甚至是生物學(xué)的其他領(lǐng)域。但有些人，比如AlQuraishi，持樂觀態(tài)度。“蛋白質(zhì)折疊只是冰山一角，”他說。例如，化學(xué)家需要進(jìn)行的計(jì)算成本高昂。通過深度學(xué)習(xí)，這些計(jì)算已經(jīng)比以前快了一百多萬倍，AlQuraishi說。

人工智能顯然可以推進(jìn)特定類型的科學(xué)問題的解決。但它可能只能增進(jìn)科學(xué)家對(duì)結(jié)果的了解，而AlQuraishi表示：“從歷史的角度出發(fā)，科學(xué)的本質(zhì)在于理解原理，”也就是生命和宇宙演化的基本過程。如果科學(xué)通過給出解決方案而不是揭示過程的深度學(xué)習(xí)工具向前發(fā)展，它還能稱得上是科學(xué)嗎？

“如果你能治愈癌癥，你真的在乎它是如何被治愈的嗎？”AlQuraishi說。“這是一個(gè)我們將在接下來數(shù)年里反復(fù)爭(zhēng)論的問題。”

如果許多研究人員決定放棄理解自然的過程，那么人工智能不僅會(huì)改變科學(xué)它還會(huì)改變科學(xué)家。

與此同時(shí)，CASP的組織者正在處理另一個(gè)問題：如何繼續(xù)他們的競(jìng)賽和會(huì)議。AlphaFold2是CASP催生的產(chǎn)物，它解決了會(huì)議旨在解決的主要問題。“對(duì)我們來說，這在某種程度上是一個(gè)巨大的沖擊：CASP現(xiàn)在要何去何從？”Moult說。

2022 年，CASP會(huì)議在土耳其安塔利亞舉行。谷歌DeepMind團(tuán)隊(duì)沒有參賽，但存在感依然強(qiáng)烈。“幾乎是AlphaFold使用者之間的比賽，”Jones說。從這個(gè)意義上說，最大贏家還是谷歌。

現(xiàn)在一些研究人員對(duì)參加會(huì)議的興趣減少了。“看到那個(gè)結(jié)果后，我改變了我的研究方向，”許錦波說。其他人則繼續(xù)完善他們的算法。Jones仍然繼續(xù)結(jié)構(gòu)預(yù)測(cè)研究，但這對(duì)他來說現(xiàn)在更像是一種愛好。還有一些人，比如AlQuraishi和Baker，繼續(xù)開發(fā)新的結(jié)構(gòu)預(yù)測(cè)和設(shè)計(jì)算法，即便是與一家市值數(shù)十億美元的公司競(jìng)爭(zhēng)也絲毫不怵。

Moult和會(huì)議組織者正在嘗試與時(shí)俱進(jìn)。下一輪CASP于五月開始接受報(bào)名。他希望深度學(xué)習(xí)能征服結(jié)構(gòu)生物學(xué)的更多領(lǐng)域，比如RNA或生物分子復(fù)合物。“這種方法解決了一個(gè)問題，”Moult說。“但在結(jié)構(gòu)生物學(xué)中還有許多其他相關(guān)問題。”

下一次會(huì)議將于2024年12月在加勒比海舉行。藍(lán)天碧海，風(fēng)和日麗，相信大家的交流也會(huì)在友好的氛圍中進(jìn)行。至少現(xiàn)在，沒有人會(huì)再公開跺腳以示反對(duì)了。誰也猜不到今年的比賽會(huì)是什么樣子。但基于往屆CASP的經(jīng)驗(yàn)來看，Moult知道有一件事是大家可以期待的“驚喜”。

相關(guān)熱詞： 諾貝爾化學(xué) 人工智能結(jié)了蛋白質(zhì) 研究