Google 旗下的 DeepMind,一夜之間讓學術界炸了鍋。
5 月 8 日,DeepMind 官宣了一個新的 AI 模型:AlphaFold 3。
相關的研究論文,發(fā)表在權威的《自然》雜志上,一來就占據(jù)了頭版。
ChatGPT 之后,AI 模型不計其數(shù),但最有資格自稱改變世界的,可能只有 AlphaFold 3。
AlphaFold 超級進化,讓生物世界更加「高清」
我們在中學生物課上學過,蛋白質是由氨基酸通過肽鍵連接形成的長鏈分子,在空間中折疊成復雜的三維結構。
三維結構決定了蛋白質的功能,直接影響了藥物設計和疾病治療。
可以說,蛋白質結構預測,是生物學最重要的命題之一。
但預測蛋白質的三維結構,是一件難事,往往需要復雜的實驗,甚至被形容為「困擾了生物學家 50 年的問題」。
2016 年,DeepMind 的 AlphaGo,戰(zhàn)勝了職業(yè)九段棋手,重寫了圍棋這門古老的技藝。
DeepMind 的 AlphaFold,則要探聽生物學的密碼,窺探生命本身的堂奧。
2018 年,AlphaFold 1 發(fā)布。
2020 年,AlphaFold 2 面世,已經可以在幾分鐘內大規(guī)模地準確預測蛋白質的形狀,并精確到原子級別。
現(xiàn)在,我們迎來了 AlphaFold 3,一個野心更大的 AI:超越蛋白質,探索所有的生物分子。
生物分子,即構成生物體的分子,包括蛋白質、DNA、RNA 等。
DeepMind 認為,只有了解生物分子如何在數(shù)百萬種組合中相互作用,才能開始真正理解生命的過程。
一言以蔽之,AlphaFold 3 比起前代,覆蓋的范圍更廣了,可以準確預測蛋白質、DNA、RNA、配體等生物分子的結構,以及它們如何相互作用。
先來看一些 AlphaFold 3 的預測結果。
7PNM,是一種普通感冒病毒的刺突蛋白。
如圖所示,AlphaFold 3 對 7PNM(藍色部分)與抗體(綠色部分)、單糖(黃色部分)相互作用時的結構預測,與真實結構(灰色部分)吻合。
預測背后有其意義,把這類蛋白質研究清楚,科學家便能更了解免疫系統(tǒng)和包括新冠在內的冠狀病毒,甚至提出更好的治療方案。
除了蛋白質的結構,AlphaFold 還能預測分子復合物,即多個分子組成的復雜結構。
下圖的酶,來自一種對植物有害的土壤真菌。
AlphaFold 的預測結果,包含一個酶蛋白(藍色部分)、一個離子(黃色球體)和一些單糖(黃色部分),契合了真實結構(灰色部分)。
深入了解這種酶與植物細胞如何相互作用,可以幫助研究人員開發(fā)更健康、抵抗力更強的作物,給農業(yè)生產帶來實際的好處。
類似地,AlphaFold 3 預測了一個由蛋白質(藍色部分)、RNA 鏈(紫色部分)和兩個離子(黃色部分)組成的分子復合物,同樣和真實結構(灰色部分)高度匹配。
這種復合物參與蛋白質的合成,即細胞生命活動和健康的基本過程之一,研究意義同樣深遠。
展現(xiàn)預測結果的準確性,再強調相關的用途,DeepMind 想要告訴世界,AlphaFold 3 是一種「革命性的模型」。
一方面,研究范圍更廣了。把視野擴充到蛋白質之外,特別是配體等小分子,可以涵蓋更多的藥物。
另一方面,準確度也提高了。對于蛋白質與其他分子類型的相互作用,與現(xiàn)有的預測方法相比,AlphaFold 3 的精度至少進步了 50%。其中一些重要的相互作用,提升甚至達到了 100%。
這樣一來,AlphaFold 3 可以造福更多的研究,加速藥物設計、推動基因組學、研發(fā)更健康的作物、開發(fā)生物可再生材料……
說到技術原理,AlphaFold 3 基于 AlphaFold 2 改進,核心是 Evoformer 深度學習架構,并使用了類似 Midjourney 的擴散網絡。
使用 AlphaFold 3 的過程,有些像我們和大語言模型聊天。輸入對生物分子的描述,AlphaFold 3 生成這些分子的三維結構,并研究它們如何相互作用。
AlphaFold 3 給出預測結果的過程,類似逐步去噪的 AI 文生圖擴散模型,從模糊的原子云開始,逐步匯聚成準確的分子結構。
講人話的生成式 AI,增強了格子間打工人的生產力。AlphaFold 對科學家們的意義,也不外如是。
在實驗室進行蛋白質結構預測,可能要花掉攻讀一個博士學位的時間,以及數(shù)十萬美元。上億個預測,怕是窮盡幾百萬人的一生也無法完成。
但有了 AlphaFold,科學家們可以提出大膽的問題、創(chuàng)新的假設,然后在實驗室進行測試,加速研究的進程。
DeepMind 的一句話,足以向普通人概括 AlphaFold 3 的意義:
AlphaFold 3 將生物世界帶入高清。
將 AlphaFold 交給世界,等待科學發(fā)現(xiàn)的新文藝復興
之前為了嘲諷 OpenAI 的閉源,馬斯克給它起了個綽號:CloseAI。
投喂了 OpenAI 好幾篇論文的 Google,在某些方面更有開源的精神。
2021 年 7 月,AlphaFold 2 在 Nature 發(fā)布了論文,也開源了代碼。
截至目前,AlphaFold 2 已用于預測數(shù)億個結構。全球數(shù)百萬研究人員,將 AlphaFold 2 用于瘧疾疫苗、癌癥治療和酶設計等領域。
也是在 2021 年 7 月,DeepMind 和歐洲生物信息研究所(EMBL-EBI)合作,發(fā)布了 AlphaFold 蛋白結構數(shù)據(jù)庫,提供了迄今為止最完整、最準確的人類蛋白質組圖景。
DeepMind 在官宣的博客里提到,這是自人類基因組繪圖以來最重要的數(shù)據(jù)集之一,現(xiàn)在他們將 AlphaFold 的力量,免費交到全世界科研人員的手中。
一年之內,超過 50 萬研究人員使用了 AlphaFold 數(shù)據(jù)庫,查看了超過 200 萬個結構,加速解決塑料污染、抗生素耐藥性等現(xiàn)實問題。
自那以后,數(shù)據(jù)庫還在不斷地擴充。
2022 年 7 月,DeepMind 發(fā)布了幾乎所有科學已知的蛋白質預測結構,總共超過 2 億個,除了人類,其中還包括了植物、細菌、動物和其他生物體的預測結構。
AlphaFold 數(shù)據(jù)庫,就像蛋白質結構的「Google 搜索」,也像一個繁星閃爍的蛋白質宇宙。蛋白質的三維結構是生命的基石,看起來又精致美觀,讓人感嘆大自然造物的神奇。
不過,這次發(fā)布的 AlphaFold 3,相比 AlphaFold 2,態(tài)度稍微顯得保守,招致了一些批評的聲音。
AlphaFold 3 目前沒有開源,不能在本地部署,研究人員只能通過 DeepMind 最新推出的研究平臺 AlphaFold Server,免費訪問大部分功能,且用途是非商業(yè)的。
最阻礙科學進步的是服務的訪問次數(shù):每天只能進行 10 次預測。
摳門行為的背后,DeepMind 可能有自己的商業(yè)考量——子公司 Isomorphic Labs 已經與制藥公司合作,將 AlphaFold 3 應用于藥物設計。
Google DeepMind 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Demis Hassabis 樂觀地表示,首批 AI 設計的藥物可能會在未來幾年內準備好進行測試。