“如果我們能學(xué)會(huì)閱讀和書寫生命的代碼,生物學(xué)就將變得可編程。試錯(cuò)將被邏輯取代,繁瑣的實(shí)驗(yàn)將被模擬所替代!边@個(gè)曾經(jīng)看起來遙不可及的愿景,正在被一家新興的 AI 公司變?yōu)楝F(xiàn)實(shí)。
在過去的幾年里,DeepMind 的 AlphaFold 讓世界見證了 AI 在預(yù)測蛋白質(zhì)結(jié)構(gòu)方面的突破。但要真正理解和設(shè)計(jì)蛋白質(zhì),我們面臨的挑戰(zhàn)遠(yuǎn)不止于此。
在生命科學(xué)領(lǐng)域,蛋白質(zhì)被稱為生命的“執(zhí)行者”。它們是構(gòu)成生命的核心分子之一,從驅(qū)動(dòng)細(xì)胞運(yùn)動(dòng)的分子馬達(dá),到進(jìn)行光合作用的能量轉(zhuǎn)換機(jī)器,再到構(gòu)建細(xì)胞內(nèi)部骨架的支撐蛋白,以及與環(huán)境互動(dòng)的復(fù)雜感受器,蛋白質(zhì)幾乎參與了生命體內(nèi)所有關(guān)鍵過程。要想設(shè)計(jì)新的蛋白質(zhì),科學(xué)家不僅要懂它們的“形狀”,更要理解它們的“語言”序列、結(jié)構(gòu)和功能之間復(fù)雜的聯(lián)系。
1 月 16 日,Science 雜志發(fā)表了一項(xiàng)重要突破:由前 Meta 首席科學(xué)家 Alexander Rives 領(lǐng)銜的初創(chuàng)公司 EvolutionaryScale 開發(fā)出了新一代人工智能模型 ESM3。該模型首次實(shí)現(xiàn)了對蛋白質(zhì)序列、結(jié)構(gòu)和功能的統(tǒng)一推理,并成功“設(shè)計(jì)”出了一種全新的熒光蛋白。
圖丨相關(guān)論文(來源:Science)
這種蛋白質(zhì)與自然界已知的最相近的熒光蛋白相比,序列相似度僅為 58%。從自然界中發(fā)現(xiàn)的綠色熒光蛋白(GFP)的多樣化速率來看,這一代新熒光蛋白的生成相當(dāng)于模擬了 5 億年的進(jìn)化過程。
實(shí)現(xiàn)序列、結(jié)構(gòu)與功能的統(tǒng)一推理
ESM3 是一個(gè)具有 980 億參數(shù)的語言模型,它能夠同時(shí)理解蛋白質(zhì)的序列、結(jié)構(gòu)和功能。這個(gè)模型在 27.8 億個(gè)自然蛋白質(zhì)序列上進(jìn)行訓(xùn)練,涵蓋了從亞馬遜雨林到海洋深處等各種環(huán)境中的蛋白質(zhì)。
其核心創(chuàng)新在于其采用了一種稱為“多軌道 Transformer”(Multi-Track Transformer)的架構(gòu)。與傳統(tǒng)的蛋白質(zhì) AI 模型往往只專注于序列或結(jié)構(gòu)的單一方面不同,ESM3 通過巧妙的架構(gòu)設(shè)計(jì),在輸入端將蛋白質(zhì)的序列、結(jié)構(gòu)和功能信息編碼為不同的“軌道”。這些信息在模型內(nèi)部被融合到一個(gè)統(tǒng)一的特征空間中,使模型能夠同時(shí)理解這三個(gè)維度的關(guān)聯(lián)。具體來說,序列信息以氨基酸序列形式輸入,結(jié)構(gòu)信息則被編碼為每個(gè)氨基酸周圍的局部三維環(huán)境,而功能信息則通過來自 InterPro 數(shù)據(jù)庫的功能注釋和 GO 術(shù)語來表示。
圖丨 ESM3 是一種多軌道 Transformer,能夠聯(lián)合推理蛋白質(zhì)序列、結(jié)構(gòu)和功能(來源:EvolutionaryScale)
為了高效處理蛋白質(zhì)的三維結(jié)構(gòu)信息,研究團(tuán)隊(duì)還開發(fā)出了一種基于局部參考系的幾何注意力機(jī)制。這種機(jī)制以每個(gè)氨基酸的化學(xué)鍵幾何構(gòu)型為基礎(chǔ)定義局部坐標(biāo)系,再通過全局坐標(biāo)變換實(shí)現(xiàn)不同局部區(qū)域之間的信息交互。這種方法不僅計(jì)算效率高,還保證了對蛋白質(zhì)結(jié)構(gòu)的精確表達(dá),實(shí)驗(yàn)顯示其能以小于 0.5 埃的精度重建蛋質(zhì)結(jié)構(gòu)。
模型的訓(xùn)練采用了一種改進(jìn)的掩碼語言建模方法。不同于傳統(tǒng)的固定掩碼率訓(xùn)練,ESM3 使用了可變的掩碼調(diào)度策略。這種策略讓模型能夠看到序列、結(jié)構(gòu)和功能的各種組合,并學(xué)習(xí)預(yù)測任意組合中缺失的部分。
在生成新蛋白質(zhì)時(shí),ESM3 采用了一種迭代的條件生成策略。模型可以接受任意組合的條件約束,比如特定位置的氨基酸身份、局部結(jié)構(gòu)片段或功能關(guān)鍵詞。它會(huì)首先創(chuàng)建一個(gè)完全或部分被掩碼的序列模板,然后通過計(jì)算條件概率分布 p(xi|xm) 來逐步填充被掩碼的位置。這個(gè)生成過程的獨(dú)特之處在于它是自回歸的,每生成一個(gè)新的氨基酸都會(huì)被立即加入上下文,影響后續(xù)位置的生成。這種方式使得模型能夠維持序列的連貫性和結(jié)構(gòu)的合理性。
圖丨使用 ESM3 進(jìn)行生成式編程(來源:Science)
生成需 5 億年進(jìn)化的全新熒光蛋白
然后,研究團(tuán)隊(duì)選擇了 GFP 作為驗(yàn)證 ESM3 能力的目標(biāo),這是一個(gè)極具挑戰(zhàn)性的選擇。綠色熒光蛋白因其獨(dú)特的發(fā)光機(jī)制而聞名,它能夠自發(fā)形成發(fā)光基團(tuán),這種特性在自然界中極為罕見。
模型采用“思維鏈”(Chain-of-thought)策略來設(shè)計(jì)新的熒光蛋白。這個(gè)過程首先向 ESM3 提供 GFP 中形成和催化發(fā)光團(tuán)所必需的六個(gè)關(guān)鍵氨基酸殘基(Thr62、Thr65、Tyr66、Gly67、Arg96、Glu222)的序列和結(jié)構(gòu)信息。同時(shí),還提供了來自天然 GFP 的第 58-71 位氨基酸的結(jié)構(gòu)信息,這些殘基對發(fā)光團(tuán)形成的能量學(xué)有重要影響。
圖丨 利用思維鏈生成遠(yuǎn)距離熒光蛋白(來源:Science)
模型首先生成蛋白質(zhì)骨架的結(jié)構(gòu)標(biāo)記,創(chuàng)建出可能的蛋白質(zhì)主鏈構(gòu)象。研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)格的篩選標(biāo)準(zhǔn),只有那些能夠正確協(xié)調(diào)活性位點(diǎn)原子但整體結(jié)構(gòu)與模板不同的候選結(jié)構(gòu)才能進(jìn)入下一步。隨后,模型基于選定的結(jié)構(gòu)生成相應(yīng)的氨基酸序列,并通過迭代優(yōu)化不斷改進(jìn)序列與結(jié)構(gòu)的匹配度。
在第一輪實(shí)驗(yàn)中,模型生成了 96 個(gè)候選序列。其中一個(gè)被標(biāo)記為 B8 的設(shè)計(jì)展現(xiàn)出了微弱的熒光,盡管它與已知的最相近的熒光蛋白僅有 57% 的序列相似度。研究團(tuán)隊(duì)隨后以 B8 為起點(diǎn)進(jìn)行第二輪設(shè)計(jì),最終得到了被命名為 esmGFP 的新型熒光蛋白。這個(gè)蛋白質(zhì)雖然與已知熒光蛋白的序列相似度只有 58%(差異多達(dá) 96 個(gè)氨基酸位點(diǎn)),但其熒光強(qiáng)度卻與天然 GFP 相當(dāng)。
從光譜特性來看,esmGFP 激發(fā)峰值在 496nm,較 EGFP 的 489nm 略有紅移,但兩者的發(fā)射峰值都在 512nm。同時(shí),esmGFP 的激發(fā)光譜展現(xiàn)出更窄的半高寬(39nm 對比 EGFP 的 56nm),這意味著它具有更好的光譜特異性。
研究團(tuán)隊(duì)通過對比分析發(fā)現(xiàn),esmGFP 與其他熒光蛋白的差異程度相當(dāng)于不同目之間但屬于同一綱的物種差異。通過構(gòu)建時(shí)間校準(zhǔn)的系統(tǒng)發(fā)育樹,研究人員估算這種差異相當(dāng)于超過 5 億年的進(jìn)化距離。這一發(fā)現(xiàn)具有重要意義,因?yàn)樗砻?AI 模型能夠在實(shí)驗(yàn)室中實(shí)現(xiàn)自然界需要數(shù)億年才能完成的分子進(jìn)化。
被 Meta 裁員后創(chuàng)業(yè),一年融資上億美元
在 ESM3 取得突破性進(jìn)展的背后,是一個(gè)充滿戲劇性的創(chuàng)業(yè)故事。2023 年 8 月,作為扎克伯格“效率年”裁員計(jì)劃的一部分,Meta 解散了由十幾名科學(xué)家組成的 AI 蛋白質(zhì)研究團(tuán)隊(duì)。但對團(tuán)隊(duì)負(fù)責(zé)人 Alexander Rives 來說,這反而成為了一個(gè)新的起點(diǎn)。他迅速召集了核心團(tuán)隊(duì)成員,成立了 EvolutionaryScale 公司,繼續(xù)他們在 Meta 未完成的工作。
圖丨Alexander Rives(來源:EvolutionaryScale)
“Meta 不是一家生物技術(shù)公司,”Rives 在接受 Fortune 雜志采訪時(shí)表示,“雖然 Meta 的開放研究文化讓我們能夠開展這項(xiàng)工作,但當(dāng)我們真正想要將這些模型擴(kuò)展到更高水平時(shí),創(chuàng)建一家新公司確實(shí)是更好的選擇。”
這個(gè)選擇很快得到了投資界的認(rèn)可。2024 年 6 月 25 日,EvolutionaryScale 宣布完成了 1.42 億美元的種子輪融資,投資方包括前 GitHub CEO Nat Friedman、知名投資人 Daniel Gross、Lux Capital,以及來自亞馬遜和英偉達(dá)風(fēng)投部門 NVentures 的戰(zhàn)略投資。
這支團(tuán)隊(duì)在 Meta 期間就已經(jīng)證明了他們的技術(shù)實(shí)力。例如,BioNTech 和 InstaDeep 此前就使用他們開發(fā)的 ESM 語言模型來檢測新冠病毒的高風(fēng)險(xiǎn)變體,成功預(yù)測了世衛(wèi)組織認(rèn)定的所有 16 個(gè)需要關(guān)注的變異株。
“這顯然是發(fā)明了蛋白質(zhì)語言建模并有能力繼續(xù)擴(kuò)大規(guī)模的夢之隊(duì),”領(lǐng)投人 Friedman 表示,“Alex 的思維格局很大。他希望建立一個(gè)能夠捕捉生物學(xué)所有復(fù)雜性的多模態(tài)模型。我一直在尋找具有這種雄心、遠(yuǎn)見和專業(yè)知識的人!
目前,EvolutionaryScale 已經(jīng)開始將其技術(shù)推向市場。公司采用雙軌策略:一方面向?qū)W術(shù)研究人員免費(fèi)開放 ESM3 的基礎(chǔ)版本(項(xiàng)目地址:https://github.com/evolutionaryscale/esm),另一方面為制藥公司提供商業(yè)版本用于藥物研發(fā)。這種模式類似于 DeepMind 的做法免費(fèi)向研究人員開放 AlphaFold,同時(shí)通過子公司 Isomorphic Labs 與制藥公司開展合作。
但公司的愿景遠(yuǎn)不止于此。一位公司發(fā)言人表示:“ESM3 只是起點(diǎn)。我們相信,未來的模型將更加多模態(tài)化,能夠整合從分子到細(xì)胞尺度的生物學(xué)數(shù)據(jù)。這不僅會(huì)幫助我們更好地理解生命系統(tǒng),也將為疾病治療和可持續(xù)發(fā)展帶來新的突破!/p>
在 AI 制藥這片藍(lán)海上,EvolutionaryScale 面臨著來自 DeepMind 子公司 Isomorphic Labs、Insitro 等方面的競爭。但正如 ESM3 展示的那樣,當(dāng) AI 真正掌握了生命的語言,Biology as Engineering 的未來或許比我們想象的更近。“我們相信未來 AI 可以幫助我們從最基本的層面理解生命的復(fù)雜系統(tǒng),做出改變我們對生物學(xué)認(rèn)識的新發(fā)現(xiàn),幫助我們找到疾病的治愈方法,建設(shè)一個(gè)更可持續(xù)的世界!
參考資料:
1.https://www.science.org/doi/10.1126/science.ads0018
2.https://www.evolutionaryscale.ai/blog/esm3-release
3.https://www.reuters.com/technology/evolutionaryscale-lands-142-mln-advance-ai-biology-2024-06-25/
4.https://fortune.com/2024/06/25/meta-ai-mafia-evolutionaryscale-llm-biology-seed-round-142-million/
排版:劉雅坤