导语: 近日,由Google DeepMind和Isomorphic Labs等团队开发的AlphaFold 3登上Nature,引发了业界广泛关注。 与上一代方法相比,AlphaFold 3将预测的范围扩充到了几乎所有的生命分子以及它们之间的相互作用,是生成式AI在生命科学领域的又一重要里程碑。其...
近日,由Google DeepMind和Isomorphic Labs等团队开发的AlphaFold 3登上Nature,引发了业界广泛关注。
与上一代方法相比,AlphaFold 3将预测的范围扩充到了几乎所有的生命分子以及它们之间的相互作用,是生成式AI在生命科学领域的又一重要里程碑。其模型的最大创新点之一,是用上了大火的生成式AI模型——扩散模型(AlphaFold 2为判别式AI模型),直接生成每个原子的3D坐标。
今天,我们与大家分享阿里云的合作伙伴百奥几何在大分子设计领域的最新进展。基于几何深度学习(Geometric Deep Learning)基础模型和最新的流匹配生成模型(Flow Matching)[1],百奥几何研发了新一代抗体设计生成式AI模型GeoFlow,能够同时用于抗原-抗体复合物结构预测和抗体从头设计。在抗原-抗体复合物结构预测任务上,GeoFlow的效果达到了与AlphaFold 3相似的水平。
生成式AI引领下一代大分子设计
如果说传统的判别式AI是乐评人,可以对一首歌的节奏、风格、编曲进行识别和评价,那么生成式AI就是歌手,可以创作出新的作品。
从评价数据到生成数据,AI的应用场景得到了极大的拓展。例如,在结构预测场景中,生成式AI能更快地采样到更多的构象;在蛋白设计场景中,生成式AI能更高效地探索蛋白空间,设计具有预期功能的复杂蛋白分子。
作为生成式AI在大分子领域应用的先行者,百奥几何在扩散模型(diffusion model,建模从噪声到分布的过程)、流匹配(flow matching,建模从分布到分布的过程)等生成式AI技术方面有着深厚的积累。
扩散生成模型早期主要用于图像生成(近期也被用于三维视频的生成,如Sora)。百奥几何的核心团队早在2021年就将扩散模型用于分子的三维结构生成[2,3],是最早将扩散模型用于分子结构建模的团队。其中关键论文GeoDiff是2022年AI领域引用量排名前50的论文之一[4]。
基于这些前期技术的积累,百奥几何研发了最新的生成式AI抗体设计大模型GeoFlow。GeoFlow模型基于几何深度学习架构和最新的流匹配生成模型(flow matching),能够同时用于抗原-抗体复合物结构预测和抗体设计两项关键任务。在原子层面对抗原-抗体相互作用力进行建模是这两项任务的核心难点。与现有的Transformer架构不同,GeoFlow采用了几何深度学习基础模型,能够更好地在三维空间上对原子-原子之间的关系进行建模。在生成模型选择上,GeoFlow采用了最新的流匹配模型。与扩散生成模型相比,流匹配生成模型的训练和推理更高效,也更鲁棒。
图:GeoFlow模型架构图。GeoFlow既可以用于抗原-抗体复合物结构预测(输入抗原结构/序列以及完整的抗体序列,模型生成抗原-抗体复合物结构),也可以用于抗体设计(输入抗原结构和抗体序列,待设计CDR区域以掩码表示,模型生成复合物结构以及CDR区域序列)
媲美AlphaFold 3的抗原抗体复合物结构预测能力
对于GeoFlow的性能,百奥几何在抗原-抗体复合物结构预测任务上进行了测评。抗原-抗体复合物结构预测在抗体药物的发现中扮演着至关重要的角色。然而,无论是基于能量函数的传统方法(如HDock和MOE),还是基于深度学习的预测模型(如AlphaFold 2 Multimer),准确度目前都不太理想。
在由66个抗原-抗体复合物结构(2023年后发布的)构成的测试集上,百奥几何模型的Top-1成功率(模型打分最高结构的DockQ水平为“Acceptable”以上则视为成功)达到了43.9%,与AF3持平,大约是AF2 Multimer的两倍。传统的分子对接方法尽管也能生成多个可能的结构,但打分准确率较低,实际应用的价值相当有限。
抗原-抗体复合物预测评测结果
PDB 8BLQ(左)、8DOK(右)各模型预测结果对比
抗体从头生成与验证
与AF3相比,GeoFlow不仅能够用于抗原-抗体复合物结构预测,还能够用于抗体的从头设计和优化。对于传统AI方法来说,大分子从头设计非常困难。主要原因是难以快速采样高质量的样本,只能通过判别模型从浩瀚的分子空间中评估大量低质量样本,这个过程如同大海捞针。
生成式AI的出现为大分子设计带来了革命性的机遇,给定抗原结构和特定表位,GeoFlow能够生成全新的抗体分子。
基于GeoFlow的抗体从头生成示意图
以HER2靶点为例,基于上市的抗体药物Herceptin的结合表位,百奥几何利用GeoFlow生成了一个小的抗体库,然后再利用噬菌体库进行筛选。在得到的十条候选序列中,
•结合活性:6个分子在ELISA实验中结合与Herceptin相当,达到纳摩尔水平,且BLI的结果显示1号和3号分子的亲和力相比Herceptin甚至有2-3倍的提升
•结合表位:竞争ELISA显示这6个分子的结合与Herceptin存在强竞争,推断其结合表位与Herceptin一致
上述结果展现了生成式AI在大分子从头设计领域的广阔应用前景。作为数智生物的先行者,百奥几何正向更大的设计区域、更难的靶点、更高的亲和力发起冲击。
百奥几何开放模型非商用测试
百奥几何的生成式AI大模型,已经覆盖了大分子设计、筛选和改造的各个环节,并通过GeoBiologics一站式抗体发现平台[5],为合作伙伴带去了实实在在的效益,该平台目前已经部署在百奥几何的战略合作方阿里云平台上。
为了让生成式AI赋能更多用户,百奥几何将开放GeoFlow模型,用于抗原-抗体复合物结构预测的非商用测试。只需登陆geobiologics-lite.biogeom.com验证邮箱后即可体验。每周支持预测八个复合物,每个任务输入支持1150个氨基酸哦~
展望未来,百奥几何将继续用前沿的生成式AI算法,深耕生物医药和合成生物学行业,与合作伙伴携手共建更绿色、更智能、更健康的美丽世界。
关于百奥几何
百奥几何是一家生成式AI驱动的蛋白质设计研发平台公司。公司通过打造生成式人工智能(AIGC)大模型理解生命语言,搭建自然语言与蛋白质语言多模态大模型,重新构建蛋白质药物发现及设计过程,打造可编程的蛋白质,应用于生物医药和生物制造。公司由AI制药顶级科学家唐建博士于2022年创立,AI之父、图灵奖获得者Yoshua Bengio担任首席科学顾问。目前,公司已经打造人工智能大分子设计平台和高通量湿实验验证两大基础平台,实现干湿实验闭环,正在赋能合作伙伴实现精准、高效的大分子药物设计和优化。
参考链接
[1]Lipman,Yaron,et al."Flow matching for generative modeling."11th International Conference on Learning Representations(ICLR 2023)
[2]Shi C,Luo S,et al."Learning gradient fields for molecular conformation generation."38th International Conference on Machine Learning(ICML 2021)
[3]Xu M,et al."Geodiff:A geometric diffusion model for molecular conformation generation."10th International Conference on Learning Representations(ICLR 2022)
[4]https://www.zeta-alpha.com/post/must-read-the-100-most-cited-ai-papers-in-2022
[5]GeoBiologics:Generative AI platform for antibody design.https://geobiologics.biogeom.com
[6]Abramson,Josh,et al."Accurate structure prediction of biomolecular interactions with AlphaFold 3."Nature(2024):1-3.