Google 旗下的 DeepMind,一夜之間讓學(xué)術(shù)界炸了鍋。
5 月 8 日,DeepMind 官宣了一個新的 AI 模型:AlphaFold 3。
相關(guān)的研究論文,發(fā)表在權(quán)威的《自然》雜志上,一來就占據(jù)了頭版。
ChatGPT 之后,AI 模型不計其數(shù),但最有資格自稱改變世界的,可能只有 AlphaFold 3。
AlphaFold 超級進(jìn)化,讓生物世界更加「高清」
我們在中學(xué)生物課上學(xué)過,蛋白質(zhì)是由氨基酸通過肽鍵連接形成的長鏈分子,在空間中折疊成復(fù)雜的三維結(jié)構(gòu)。
三維結(jié)構(gòu)決定了蛋白質(zhì)的功能,直接影響了藥物設(shè)計和疾病治療。
可以說,蛋白質(zhì)結(jié)構(gòu)預(yù)測,是生物學(xué)最重要的命題之一。
但預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),是一件難事,往往需要復(fù)雜的實驗,甚至被形容為「困擾了生物學(xué)家 50 年的問題」。
2016 年,DeepMind 的 AlphaGo,戰(zhàn)勝了職業(yè)九段棋手,重寫了圍棋這門古老的技藝。
DeepMind 的 AlphaFold,則要探聽生物學(xué)的密碼,窺探生命本身的堂奧。

2018 年,AlphaFold 1 發(fā)布。
2020 年,AlphaFold 2 面世,已經(jīng)可以在幾分鐘內(nèi)大規(guī)模地準(zhǔn)確預(yù)測蛋白質(zhì)的形狀,并精確到原子級別。
現(xiàn)在,我們迎來了 AlphaFold 3,一個野心更大的 AI:超越蛋白質(zhì),探索所有的生物分子。
生物分子,即構(gòu)成生物體的分子,包括蛋白質(zhì)、DNA、RNA 等。
DeepMind 認(rèn)為,只有了解生物分子如何在數(shù)百萬種組合中相互作用,才能開始真正理解生命的過程。

一言以蔽之,AlphaFold 3 比起前代,覆蓋的范圍更廣了,可以準(zhǔn)確預(yù)測蛋白質(zhì)、DNA、RNA、配體等生物分子的結(jié)構(gòu),以及它們?nèi)绾蜗嗷プ饔谩?/p>
先來看一些 AlphaFold 3 的預(yù)測結(jié)果。
7PNM,是一種普通感冒病毒的刺突蛋白。
如圖所示,AlphaFold 3 對 7PNM(藍(lán)色部分)與抗體(綠色部分)、單糖(黃色部分)相互作用時的結(jié)構(gòu)預(yù)測,與真實結(jié)構(gòu)(灰色部分)吻合。

預(yù)測背后有其意義,把這類蛋白質(zhì)研究清楚,科學(xué)家便能更了解免疫系統(tǒng)和包括新冠在內(nèi)的冠狀病毒,甚至提出更好的治療方案。
除了蛋白質(zhì)的結(jié)構(gòu),AlphaFold 還能預(yù)測分子復(fù)合物,即多個分子組成的復(fù)雜結(jié)構(gòu)。
下圖的酶,來自一種對植物有害的土壤真菌。
AlphaFold 的預(yù)測結(jié)果,包含一個酶蛋白(藍(lán)色部分)、一個離子(黃色球體)和一些單糖(黃色部分),契合了真實結(jié)構(gòu)(灰色部分)。

深入了解這種酶與植物細(xì)胞如何相互作用,可以幫助研究人員開發(fā)更健康、抵抗力更強的作物,給農(nóng)業(yè)生產(chǎn)帶來實際的好處。
類似地,AlphaFold 3 預(yù)測了一個由蛋白質(zhì)(藍(lán)色部分)、RNA 鏈(紫色部分)和兩個離子(黃色部分)組成的分子復(fù)合物,同樣和真實結(jié)構(gòu)(灰色部分)高度匹配。
這種復(fù)合物參與蛋白質(zhì)的合成,即細(xì)胞生命活動和健康的基本過程之一,研究意義同樣深遠(yuǎn)。

展現(xiàn)預(yù)測結(jié)果的準(zhǔn)確性,再強調(diào)相關(guān)的用途,DeepMind 想要告訴世界,AlphaFold 3 是一種「革命性的模型」。
一方面,研究范圍更廣了。把視野擴充到蛋白質(zhì)之外,特別是配體等小分子,可以涵蓋更多的藥物。
另一方面,準(zhǔn)確度也提高了。對于蛋白質(zhì)與其他分子類型的相互作用,與現(xiàn)有的預(yù)測方法相比,AlphaFold 3 的精度至少進(jìn)步了 50%。其中一些重要的相互作用,提升甚至達(dá)到了 100%。
這樣一來,AlphaFold 3 可以造福更多的研究,加速藥物設(shè)計、推動基因組學(xué)、研發(fā)更健康的作物、開發(fā)生物可再生材料……
說到技術(shù)原理,AlphaFold 3 基于 AlphaFold 2 改進(jìn),核心是 Evoformer 深度學(xué)習(xí)架構(gòu),并使用了類似 Midjourney 的擴散網(wǎng)絡(luò)。

使用 AlphaFold 3 的過程,有些像我們和大語言模型聊天。輸入對生物分子的描述,AlphaFold 3 生成這些分子的三維結(jié)構(gòu),并研究它們?nèi)绾蜗嗷プ饔谩?/p>
AlphaFold 3 給出預(yù)測結(jié)果的過程,類似逐步去噪的 AI 文生圖擴散模型,從模糊的原子云開始,逐步匯聚成準(zhǔn)確的分子結(jié)構(gòu)。
講人話的生成式 AI,增強了格子間打工人的生產(chǎn)力。AlphaFold 對科學(xué)家們的意義,也不外如是。

在實驗室進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測,可能要花掉攻讀一個博士學(xué)位的時間,以及數(shù)十萬美元。上億個預(yù)測,怕是窮盡幾百萬人的一生也無法完成。
但有了 AlphaFold,科學(xué)家們可以提出大膽的問題、創(chuàng)新的假設(shè),然后在實驗室進(jìn)行測試,加速研究的進(jìn)程。
DeepMind 的一句話,足以向普通人概括 AlphaFold 3 的意義:
AlphaFold 3 將生物世界帶入高清。
將 AlphaFold 交給世界,等待科學(xué)發(fā)現(xiàn)的新文藝復(fù)興
之前為了嘲諷 OpenAI 的閉源,馬斯克給它起了個綽號:CloseAI。
投喂了 OpenAI 好幾篇論文的 Google,在某些方面更有開源的精神。
2021 年 7 月,AlphaFold 2 在 Nature 發(fā)布了論文,也開源了代碼。
截至目前,AlphaFold 2 已用于預(yù)測數(shù)億個結(jié)構(gòu)。全球數(shù)百萬研究人員,將 AlphaFold 2 用于瘧疾疫苗、癌癥治療和酶設(shè)計等領(lǐng)域。
也是在 2021 年 7 月,DeepMind 和歐洲生物信息研究所(EMBL-EBI)合作,發(fā)布了 AlphaFold 蛋白結(jié)構(gòu)數(shù)據(jù)庫,提供了迄今為止最完整、最準(zhǔn)確的人類蛋白質(zhì)組圖景。

DeepMind 在官宣的博客里提到,這是自人類基因組繪圖以來最重要的數(shù)據(jù)集之一,現(xiàn)在他們將 AlphaFold 的力量,免費交到全世界科研人員的手中。
一年之內(nèi),超過 50 萬研究人員使用了 AlphaFold 數(shù)據(jù)庫,查看了超過 200 萬個結(jié)構(gòu),加速解決塑料污染、抗生素耐藥性等現(xiàn)實問題。
自那以后,數(shù)據(jù)庫還在不斷地擴充。

2022 年 7 月,DeepMind 發(fā)布了幾乎所有科學(xué)已知的蛋白質(zhì)預(yù)測結(jié)構(gòu),總共超過 2 億個,除了人類,其中還包括了植物、細(xì)菌、動物和其他生物體的預(yù)測結(jié)構(gòu)。
AlphaFold 數(shù)據(jù)庫,就像蛋白質(zhì)結(jié)構(gòu)的「Google 搜索」,也像一個繁星閃爍的蛋白質(zhì)宇宙。蛋白質(zhì)的三維結(jié)構(gòu)是生命的基石,看起來又精致美觀,讓人感嘆大自然造物的神奇。

不過,這次發(fā)布的 AlphaFold 3,相比 AlphaFold 2,態(tài)度稍微顯得保守,招致了一些批評的聲音。
AlphaFold 3 目前沒有開源,不能在本地部署,研究人員只能通過 DeepMind 最新推出的研究平臺 AlphaFold Server,免費訪問大部分功能,且用途是非商業(yè)的。
最阻礙科學(xué)進(jìn)步的是服務(wù)的訪問次數(shù):每天只能進(jìn)行 10 次預(yù)測。
摳門行為的背后,DeepMind 可能有自己的商業(yè)考量——子公司 Isomorphic Labs 已經(jīng)與制藥公司合作,將 AlphaFold 3 應(yīng)用于藥物設(shè)計。
Google DeepMind 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Demis Hassabis 樂觀地表示,首批 AI 設(shè)計的藥物可能會在未來幾年內(nèi)準(zhǔn)備好進(jìn)行測試。
