首頁 資訊 Nature子刊:華大智造研發(fā)團隊訓練自博弈AI智能體,實現高效蛋白質從頭設計

Nature子刊:華大智造研發(fā)團隊訓練自博弈AI智能體,實現高效蛋白質從頭設計

來源:泰然健康網 時間:2024年12月13日 11:59

編輯丨王多魚

排版丨水成文

如今,人工智能(Artificial Intelligence,AI)技術已經在多個領域大放異彩,并深入到我們的日常生活中。從圍棋領域的AlphaGo到預測蛋白質構的AlphaFold,從去年的AI繪畫到如今火遍全球的ChatGPT,人工智能作為一種新興的顛覆性技術,正在逐步釋放科技革命和產業(yè)變革積蓄的巨大能量,并深刻改變了人類的生活和思維方式。

在生命科學和醫(yī)學領域,人工智能的應用也越來越廣泛,包括AI診斷、AI制藥、AI蛋白質從頭設計,基于大模型的AI醫(yī)生甚至已經開始了臨床試驗。

而這些人工智能模型都離不開強化學習(Reinforcement learning,RL),強化學習使智能體(Agent)能夠通過與環(huán)境交互并最大化獎勵函數來學習如何執(zhí)行操作。

2023年7月20日,華大智造楊夢團隊在 Nature 子刊 Nature Machine Intelligence 上發(fā)表了題為:Self-play reinforcement learning guides protein engineering 的研究論文【1】,發(fā)布了一款名為“ EvoPlay”的強化學習算法模型。這也是楊夢團隊在Nature Machine Intelligence期刊發(fā)表單細胞對比學習自監(jiān)督Concerto算法【2】后,時隔一年再度發(fā)表人工智能算法相關論文。

79431689894491292

EvoPlay 由“Evo”、“Play”兩個英文單詞組合而成,前者意為進化,指蛋白質分子的功能進化;Play指的是博弈類搜索算法。EvoPlay實際上借鑒圍棋自博弈(Self-play)的方式搜索海量蛋白質突變空間,并通過結合不同的功能或結構預測模擬器,像自動駕駛一樣訓練一個智能體(Agent)完成指定功能增強的蛋白進化。研究團隊將AlphaFold家族模型和AlphaGo家族模型有機結合,從而以折疊結構為目標高效地設計蛋白質。

值得一提的是,蛋白質的工程化設計和改造是基因測序儀的底層基礎,基因測序儀的迭代升級離不開蛋白工程技術的突破??茖W家們通過改造各種各樣的蛋白質操縱DNA分子、讀取酶催化的信號從而識別堿基序列。從華大智造測序儀試劑里用到的聚合酶、熒光素酶等各種工具酶,到更廣范圍的生物催化劑、生物傳感器、治療類抗體到生物燃料,都離不開對蛋白質的設計和改造。

從定向進化到從頭設計

21世紀初迎來了生物催化發(fā)展的第三次突破——體外版本的達爾文進化,定向進化——模仿自然選擇的過程,將蛋白質或核酸的設計引向用戶定義的目標。其貢獻者Frances Arnold因此被授予2018年諾貝爾化學獎。2019年Arnold又引入了機器學習指導的定向進化MLDE (Machine-learning-guided directed evolution)以提高采樣效率來加速進化,目前普通MLDE的隨機采樣效率并不高效,一方面是采樣空間巨大,僅4個氨基酸位點就能達到204(60000)種組合可能性,隨機采樣方法難以應對。另一方面是采樣空間稀疏,在巨大采樣空間中有99%以上序列是無效的,其功能值遠低于野生型序列或為0。因此,如何高效地采樣一直是蛋白質設計領域的重要課題之一。

另外,蛋白質的功能與其結構強相關,2020年發(fā)布的AlphaFold2把人們的注意力重新拉回了對蛋白質結構的解析上。AlphaFold2模型的前半部分包含了由MSA (多序列比對) 承載的蛋白質的進化信息,此進化信息也越來越多的被證實可以由蛋白質語言預訓練模型的輸出替代,例如近期Meta發(fā)布的ESMFold 【2】 。接下來,人們獲得了對已知蛋白序列的結構進行精準解析的能力后,使得反過來從指定結構來設計合適的蛋白序列成為了可能,即“從頭設計”(De Novo Design)。最新的“從頭設計”工具包括RFDesign【3】,ProteinMPNN【4】等,都是由華盛頓大學的 David Baker 教授團隊所開發(fā)。

強化學習在諸多設計和優(yōu)化領域都有著廣泛的應用,無論是視頻游戲【5】,下棋【6、7】,大語言模型多輪對話聊天(ChatGPT的LLM+RLHF),自動駕駛【8】到核聚變控制 【9】 。

此次,華大智造楊夢帶領團隊開發(fā)的EvoPlay算法,把經典的強化學習應用到了蛋白質設計框架中,不僅能夠增強傳統(tǒng)MLDE的采樣效率,并能夠結合最新的蛋白質結構解析模型(AlphaFold2)直接設計出帶目標結構的氨基酸序列。EvoPlay既能夠用于傳統(tǒng)定向進化,也能夠被納入“從頭設計”的框架中。

EvoPlay 與 AlphaZero

視頻1.EvoPlay概念展示。EvoPlay的蛋白質序列設計過程類似于下棋博弈的過程。在視頻中,隨著每個棋子的落下,都會產生新的棋盤局勢,EvoPlay每下一步棋相當于在蛋白質氨基酸序列的某個位置進行一個氨基酸的突變。這些突變的序列將映射到代表蛋白質功能強度(例如發(fā)光強度,與特定分子的親和力等)的崎嶇地形上。地形的高低代表了蛋白質功能的強弱。EvoPlay旨在引導蛋白質進行高效的突變,使其功能達到最高峰,就如同在棋盤上取得勝利一樣。(視頻設計:楊利華、黃睿、李依格)

DeepMind的下棋策略以及強化學習框架是EvoPlay的靈感來源。AlphaGo是DeepMind最重要的AI模型之一。它是一個基于深度學習和強化學習的人工智能圍棋程序,2016年,AlphaGo 【6】 與世界圍棋冠軍李世石進行五局三勝的對弈,并以4比1的總比分獲勝,引起了廣泛的關注和震動。這一勝利標志著人工智能首次在高度復雜的游戲中超越人類頂尖選手。 

AlphaZero 【7】是DeepMind后續(xù)進一步發(fā)展的AI模型。它不需要任何人類的經驗知識,只需要知道游戲規(guī)則便能通過自我對弈和強化學習從零開始學習并掌握多種棋類游戲,包括圍棋、國際象棋和日本象棋,它以驚人的速度超越了世界上最強大的棋類引擎,并展示了一種通用的自學習方法,能夠適應不同的領域和問題。

而EvoPlay模型便是借鑒了這種方法,并將其運用到了蛋白質設計領域當中。作者將蛋白質序列上每一個位點的突變當作是圍棋中的每一次落子,將優(yōu)化的最終序列當作是一局圍棋的結束,通過自我對弈和蒙特卡洛樹搜索在蛋白質序列空間中不斷的搜索和優(yōu)化序列,同時作者使用一個代理模型來為每一次位點突變進行獎勵,最終成功生成了大量的具有特定功能的序列。

49051689894493978

圖1:EvoPlay 與 AlphaZero

EvoPlay 與 RLHF

在與人的交流反饋中進行強化學習——RLHF(Reinforcement Learning from Human Feedback),是強化學習領域的一個重要和熱門的研究方向。DeepMind、Microsoft Research、Google Brain 等機構都在積極投入RLHF的研究。RLHF是一種以人類反饋為訓練基礎的強化學習策略,也屬于基于模型(model based)的強化學習策略。

RLHF是通過在與人互動的過程中獲取人類的反饋,訓練一個獎勵模型(reward model)并據此優(yōu)化智能體(Agent)的策略。目前流行的訓練策略的算法包括ChatGPT使用的近端策略優(yōu)化(PPO) 【15】 ,該算法也在EvoPlay基線實驗中有應用。

與RLHF通過人類反饋訓練獎勵模型不同,EvoPlay的強化學習模式可以被稱為RLPF(Reinforcement Learning from Protein Feedback),即通過蛋白質的反饋訓練獎勵模型。在EvoPlay的RLPF中,環(huán)境獎勵同樣由一個模型來模擬,這個模型通常被稱為代理模型。通過訓練蛋白質的功能或者結構相關的數據集得到代理模型,這些數據集和已訓練環(huán)境模型都包含了蛋白質序列與功能或者結構的對應關系,相當于強化學習的智能體通過改變蛋白質序列與蛋白質進行“交流”,獲取功能以及結構反饋信息。

EvoPlay 與超大空間蛋白質設計

24191689894494156

圖2:EvoPlay與超大空間蛋白質設計

一張19×19的圍棋棋局變數的空間是3361,相當于一個長度為132個氨基酸組成的蛋白質的設計空間20132, 這個空間遠大于宇宙中的粒子數1080。如此巨大的空間給蛋白質設計提供了非常大的挑戰(zhàn)。

以該論文的兩個研究對象數據集PAB1蛋白(Poly(A)-結合蛋白,全長75個氨基酸)和GFP蛋白(綠色熒光蛋白,全長237個氨基酸) 為例, 人們難以為每一個設計的蛋白質序列做實驗驗證。在強化學習框架下,研究人員需要解決的問題是如何構建模擬環(huán)境獎勵的代理模型 (Surrogate model) ,以及如何在不做或者少做實驗的情況下驗證該環(huán)境獎勵的可靠性。

研究團隊構造了一個深度卷積神經網絡(CNN)來學習這兩個數據集已有的部分實驗數據,以此模型作為代理模型。另外值得注意的是,本篇文章的研究人員引入了蛋白質語言模型ESM 【16、17】 來挑選全長位點的子集來縮小設計空間,此方法亦應用于近期發(fā)表于 Nature Biotechnology 的抗體設計中 【18】 。其原理是蛋白質語言模型在對數以億級的天然蛋白質進行無監(jiān)督訓練后,能夠根據所學到的進化信息輸出任意蛋白序列的單個位點的氨基酸分布評估。對于這兩個數據集,研究團隊采用了TAPE Transformer 【19】 作為正交的驗證指標器。

驗證結果表明,EvoPlay在PAB1和GFP兩個數據集上均超越了所有基準對比算法。例如,Adalead 【20】 在優(yōu)化過程中頻繁進行序列重組,導致其在所有優(yōu)化高點(local peak)附近“沾邊即走”,因此Adalead找到的有效序列比EvoPlay少。貝葉斯優(yōu)化BO 【21】 在面對蛋白空間這種高維問題時會面臨“維度災難”問題,導致優(yōu)化效率降低?;趶娀瘜W習的DyNA-PPO【22】是2020年序列設計領域的最佳模型,但其在優(yōu)化過程中更換代理模型,導致獎勵的不確定性增加,與EvoPlay差距明顯。SAC(Soft Actor-Critic)【23】算法旨在最大化獎勵和行動的不確定性,雖然經過改進后其效果超過了DyNA-PPO,但其高度的隨機性,導致它的性能降低。Cbas【24】是基于隱空間表示的變分自編碼器優(yōu)化,其優(yōu)化目標不明確。

EvoPlay 與 AlphaFold2

69651689894494224

視頻2. EvoPlay多肽設計任務展示。多肽設計任務的目的是通過策略性的改變多肽的氨基酸序列,以找到與受體蛋白質親和力強的多肽。圖中展示了EvoPlay在序列優(yōu)化設計過程中,不同的多肽與受體蛋白在空間結合上的變化趨勢。

在EvoPlay的多肽序列設計任務中,團隊將AlphaFold2作為代理模型。AlphaFold2是DeepMind于2020年開發(fā)的深度學習模型,用于蛋白質結構預測,在CASP14的蛋白質結構預測實驗中,它取得了顯著的突破,大大提高了預測的準確性。它在蛋白質三維結構預測上的準確性已經達到實驗室測量的精度,極大地增強了科研人員對蛋白質功能、相互作用及疾病機制的理解。這在藥物設計、疾病治療和合成生物學等領域都有著深遠的影響。

在EvoPlay的多肽設計研究中,團隊利用AlphaFold2構建了一個評估多肽與受體蛋白親和力的評分器,為智能體提供獎勵輸出,從而優(yōu)化多肽的設計策略。親和力濕實驗驗證顯示,在使用相同評分器作為代理模型時,結合蒙特卡洛樹搜索(MCTS)和神經網絡的EvoPlay在性能上顯著超越其他基準方法,如貪心算法 【25】 和基于模擬退火的MCMC【26】。其設計的多肽與受體蛋白的親和力達到了納摩爾級別。值得注意的是,最近發(fā)布的ESMFold 【2】 在蛋白結構預測的精度上接近AlphaFold2。而且,由于其使用蛋白質語言模型ESM替代了多序列比對(Multiple Sequences Alignment),ESMFold的響應速度顯著提高,使其有望替代AlphaFold2,成為EvoPlay結構相關任務的新代理模型。

EvoPlay實戰(zhàn)1——熒光素酶設計

在華大智造的這項研究成果中,其利用EvoPlay前瞻性地設計了36個熒光素酶突變體(其中的29個變體已申請專利) 【27】 ,并通過濕實驗驗證,結果顯示,36個突變中有26個比野生型發(fā)出更強的生物熒光;其中,4個變體比野生型提高了6倍。另外,有11個突變體優(yōu)于之前的所有變體,其中最好的突變體(GLuc-MT1)比華大之前內部突變庫 (見專利 【28】 )中表現最好的變體提高了2倍,或相當于比野生型提高7.8倍。

此外,研究團隊選取部分突變體進行MD模擬,進一步揭示了驅動催化活性的一些關鍵因素,這些分子動力學模擬結果進一步證明了EvoPlay的卓越性能以及其捕捉結構-功能映射中的某些內在規(guī)律的能力??傊?,EvoPlay在尋找起始庫之外更高適應性突變體方面非常有效,并且可以與現有的工程流程相集成。

15291689894496432

圖3:熒光素酶設計

EvoPlay實戰(zhàn)2——多肽設計

EvoPlay旨在高效地設計高質量多肽,適用于蛋白質-蛋白質相互作用、酶設計和藥物發(fā)現等多種應用領域 。另外,為了進一步驗證了EvoPlay的設計多肽方面的性能,作者對于三種基準算法(EvoPlay、EvoBind 【25】 、MCMC)的每個起始序列,從按訓練損失排序的前五個設計序列中選擇具有最高pLDDT(predicted local distance difference test)值的多肽,利用BLI(Bio-layer interferometry)技術檢測多肽與蛋白的親和力,實驗結果顯示EvoPlay設計的五條多肽都表現出針對RNase1蛋白的突出的親和力,其中一條達到了最高的親和力(Kd=80nM),遠高于野生型多肽的親和力(Kd=1uM)。

濕實驗室驗證結果表明EvoPlay優(yōu)于EvoBind和MCMC的性能,并且表明EvoPlay能夠有效地捕捉肽-蛋白質相互作用界面特征的能力,從而設計出高親和力的多肽。

88971689894496490

圖4:多肽設計

EvoPlay 展望

在EvoPlay投稿之后,David Baker 團隊在 Nature 期刊發(fā)表了標題為:De novo design of luciferases using deep learning 的研究論文 【29】 ,通過針對特定底物搜索得到合適的蛋白質骨架,并通過重新設計活性位點以及結合口袋來“從頭設計”生成一個具有一定活性的全新蛋白,離徹底的“無中生有”設計蛋白又進了一步。該文章中的采樣算法為MCMC,其特點是通過一定概率的“拒絕接受”采樣來增加隨機性以提高搜索廣度。EvoPlay在多肽任務設計中的性能顯著優(yōu)于MCMC。

我們有理由相信在更多的理性機制分析以及更精密的結構代理模型的幫助下,EvoPlay的蒙特卡洛樹搜索+神經網絡可以更好地結合“從頭設計”框架,從而為蛋白設計領域提供新的思路,也可以用來進一步優(yōu)化測序儀里用到的各種工具酶。

11531689894496599

圖5:DeepMind與OpenAI發(fā)展路線圖對比

DeepMind作為強化學習的集大成者,從2013年玩雅達利游戲的深度Q網絡(DQN)【5】到擊敗韓國圍棋冠軍的AlphaGo以及能玩多種棋類的AlphaZero,再到近些年在眾多專業(yè)領域中從0到1的探索(同時玩棋類和視頻游戲的MuZero【10】,可以兼容對話加玩游戲再加控制機械臂等的Gato【11】,用于矩陣乘法的AlphaTensor【12】,精通復雜博弈游戲的DeepNash【13】以及今年的排序算法AlphaDev【14】等等),DeepMind無不在這些特殊領域把強化學習發(fā)揮到極致。

與DeepMind的眾多特殊領域專才模型策略形成鮮明對比的是OpenAI的通用大模型策略,即以大數據為依托,通過預訓練大型的自然語言模型來獲得通用人工智能的目的。OpenAI從2018年開始,一直致力于更新GPT模型,直到2022年11月,全面對齊RLHF(在與人的交流反饋中進行強化學習)的ChatGPT發(fā)布,標志著大語言模型(LLM)時代的正式來臨, OpenAI的大數據通才模型戰(zhàn)略進入新的階段。但二者并非涇渭分明,把高效的向前搜索和向后回看用于大語言模型的 Prompt導航,很有可能賦予LLM長程規(guī)劃和自主決策的能力,OpenAI和DeepMind的兩條路線融合,將很有可能推動AGI照進現實。

隨著自動化生物實驗室的蓬勃發(fā)展,以及微流控技術廣泛用于分子篩選和進化,更多的自動駕駛實驗室(Self-driving Lab)即將出現。生命科學和技術實驗室中的各個環(huán)節(jié),包括實驗的執(zhí)行、數據的收集和分析、實驗計劃的制定等, 如Design-Build-Test-Learn(DBTL)的循環(huán)的自主執(zhí)行,都可以由自動化系統(tǒng)和人工智能來完成,而不需要人類進行主動的干預或操作。智能體(Agent)還可以通過LLM等工具整合外部知識,多輪迭代探索,連續(xù)學習,創(chuàng)造出滿足人類需求的酶、抗體、小分子、基因序列甚至人造細胞。人工智能和機器人有巨大潛力推動人類科學進一步探索未知的邊界,期待人工智能(AI)和生物智能(BI)和諧共生。

參考文獻 : [1] Yang, K. K., Wu, Z. & Arnold, F. H. Machine-learning-guided directed evolution for protein engineering. Nat. Methods 16, 687-694 (2019). 

[2] Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model[J]. Science, 2023, 379(6637): 1123-1130.   

[3] Wang, J. et al. Scaffolding protein functional sites using deep learning. Science 377, 387-394 (2022).   

[4] Dauparas, J. et al. Robust deep learning–based protein sequence design using ProteinMPNN. Science 378, 49-56 (2022).  

[5] Mnih, V. et al. Human-level control through deep reinforcement learning. Nature 518, 529-533 (2015).  

[6]Silver, D. et al. Mastering the game of go without human knowledge. Nature 550, 354-359 (2017). 

[7] Silver, D. et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science 362, 1140-1144 (2018). 

[8] Feng, S., Sun, H., Yan, X. et al. Dense reinforcement learning for safety validation of autonomous vehicles. Nature 615, 620–627 (2023).

[9] Degrave, J. et al. Magnetic control of tokamak plasmas through deep reinforcement learning. Nature 602, 414-419 (2022).  

[10] Schrittwieser J, Antonoglou I, Hubert T, et al. Mastering atari, go, chess and shogi by planning with a learned model[J]. Nature, 2020, 588(7839): 604-609. 

[11] Reed S, Zolna K, Parisotto E, et al. A generalist agent[J]. arXiv preprint arXiv:2205.06175, 2022 

[12] Fawzi A, Balog M, Huang A, et al. Discovering faster matrix multiplication algorithms with reinforcement learning[J]. Nature, 2022, 610(7930): 47-53.   

[13] Perolat J, De Vylder B, Hennes D, et al. Mastering the game of Stratego with model-free multiagent reinforcement learning[J]. Science, 2022, 378(6623): 990-996.  

[14] Mankowitz D J, Michi A, Zhernov A, et al. Faster sorting algorithms discovered using deep reinforcement learning[J]. Nature, 2023, 618(7964): 257-263. 

[15] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.  

[16] Rives, A. et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proc. Natl. Acad. Sci. 118, e2016239118 (2021). 

[17] Meier, J. et al. Language models enable zero-shot prediction of the effects of mutations on protein function. Advances in Neural Information Processing Systems 34, 29287-29303 (NeurIPS, 2021). 

[18] Hie, B. L. et al. Efficient evolution of human antibodies from general protein language models and sequence information alone. Nat. Biotechnol. (2023).  

[19] Rao, R. et al. Evaluating protein transfer learning with TAPE. Advances in neural information processing systems 32 (NeurIPS, 2019).   

[20] Sinai, S. et al. AdaLead: A simple and robust adaptive greedy search algorithm for sequence design. Preprint at https://arxiv.org/abs/2010.02141 (2020).

[21] González J, Dai Z, Hennig P, et al. Batch Bayesian optimization via local penalization. In Proc. 38th International Conference on Machine Learning 648-657 (PMLR, 2016).

[22] Angermueller, C. et al. Model-based reinforcement learning for biological sequence design. International conference on learning representations (ICLR, 2020).   

[23] Haarnoja T, Zhou A, Abbeel P, et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//International conference on machine learning. PMLR, 2018: 1861-1870. 

[24] Brookes, D., Park, H. & Listgarten, J. Conditioning by adaptive sampling for robust design. In Proc. 36th International Conference on Machine Learning 773-782 (PMLR, 2019).  

[25] Bryant, P. & Elofsson, A. EvoBind: in silico directed evolution of peptide binders with AlphaFold. bioRxiv (2022).   

[26] Anishchenko, I. et al. De novo protein design by deep network hallucination. Nature 600, 547-552 (2021). 

[27] Yang, M., Pan, L. L., Liu, W. J., Wang, Y., et al. 新型橈足類熒光素酶突變體及其應用. PCT/CN2023/087445 (2023).  

[28] Zhang, W., Dong, Y. L., Li, J., Zheng, Y. & Zhang, W. W. A Novel Gaussian Luciferase and Application. PCT/CN2021/144051 (2021). 

[29] Yeh A H W, Norn C, Kipnis Y, et al. De novo design of luciferases using deep learning[J]. Nature, 2023, 614(7949): 774-780.  

本文由“健康號”用戶上傳、授權發(fā)布,以上內容(含文字、圖片、視頻)不代表健康界立場?!敖】堤枴毕敌畔l(fā)布平臺,僅提供信息存儲服務,如有轉載、侵權等任何問題,請聯系健康界(jkh@hmkx.cn)處理。

相關知識

非凡伙伴|清華團隊醫(yī)者AI用MoE大模型打造健康管理AI
重磅!《自然》正刊又發(fā)文,暨南團隊發(fā)現“減肥”新靶點
從AI醫(yī)學影像出發(fā),華為攜手“懂行”伙伴共筑醫(yī)療智能體
Nature子刊:徐勇/劉峰團隊發(fā)現新型瘦素調控蛋白,帶來減肥新方法@MedSci
智能AI健身房:如何利用AI技術實現高效燃脂減肥?
Nature子刊:陳子江院士團隊揭示母親肥胖對圍產期及子代健康的影響
Nature子刊:人工智能和腦電刺激結合,改善人類大腦功能
華為AI健身助手:智能監(jiān)測與個性化訓練,打造全方位健新體驗
復旦大學附屬中山醫(yī)院聯合華大基因等在Nature子刊發(fā)布上消化道癌治療研究
“體育+科技”融合:大數據與AI打造“智慧體育”

網址: Nature子刊:華大智造研發(fā)團隊訓練自博弈AI智能體,實現高效蛋白質從頭設計 http://www.u1s5d6.cn/newsview491575.html

推薦資訊