AI蛋白质结构预测再下一城:国内首次复现Alphafold2全规模训练并开源代码
原标题:AI蛋白质结构预测再下一城:国内首次复现Alphafold2全规模训练并开源代码来源:中国科技网
科技日报记者崔爽近日,由国内团队研发的蛋白质结构预测工具Uni-Fold问世并开源训练、推理代码,为AI蛋白质结构预测领域再添一把柴。值得一提的是,由深势科技研发的Uni-Fold成功复现了曾引起生物学界轰动的Alphafold2的全规模训练,Uni-Fold克服了Alphafold2未开源训练代码、硬件支持单一、模型不可商用等局限性,在训练与推理环节进行了GPU上的适配、性能优化、功能完善等工作,为更多人参与这一领域提供了基础。目前,相应解决方案已集成至其自主研发的药物设计平台Hermite,供用户测试使用。“开放产品也开放流水线”蛋白质折叠问题被认为是人类在21世纪需要解决的重要科学前沿问题之一。研究蛋白质结构,有助于了解蛋白质的作用,理解蛋白质如何行使其生物功能,认识蛋白质与非蛋白质之间的相互作用,对于生物学、医学和药学等都非常重要。事实上,在50多年的时间里,研究人员一直尝试根据蛋白质的氨基酸序列预测其折叠而成的三维结构。为了求解这一问题,科学家们相继发展出X射线晶体学、核磁共振和冷冻电镜三大实验手段。然而,由于计算方法准确度有限,实验方法对人力和时间的要求非常高,过去半个多世纪,人类一共解析了5万多个人源蛋白质的结构,获得了人类蛋白质组里大约17%的氨基酸已有结构信息。2020年,AI为蛋白质结构预测领域带来惊人进展:在2020年的国际蛋白质结构预测顶级竞赛CASP14(CriticalAssessmentofproteinStructurePrediction14)上,谷歌旗下的人工智能公司DeepMind推出的Alphafold2预测的大部分结构准确度均与实验足够接近,远超此前所有方法。它的预测也将17%的结果一举提高到58%,因为无固定结构的氨基酸比例很大,58%的结构预测已经趋近极限。这一结果标志着蛋白质单体的结构问题在一定意义上得到了解决,也让蛋白质结构预测这一领域成为人工智能落地的热门。今年7月,DeepMind宣布开源Alphafold2模型的推理代码,再次引发业界震动。不过,在深势科技创始人兼CEO孙伟杰看来,Alphafold2的开源并不能让相关领域研究人员高枕无忧,原因在于其训练代码并未被公布,且模型不可商用。“研究者难以通过训练或调整模型进一步提升Alphafold2的表现,也不能迁移至更多应用场景,如蛋白质复合物结构预测、蛋白质与小分子之间的相互作用、与冷冻电镜实验的结合、动态场景下的蛋白质结构等。”孙伟杰说,而这些场景正是未来蛋白质结构预测需要重点发力的领域,对于下一步的药物设计和生物科学的发展意义重大。如果一味依赖Alphafold2,不仅会使研究受到掣肘、阻碍进一步工作,也会让国内研究者在这一热门技术领域失去先机。“单一的蛋白质结构预测能力只是一个起点。对实际的药物研发或者蛋白的作用机理而言,有很多有待于进一步工作的地方。”深势科技创始人兼首席科学家张林峰说。而这正是Uni-Fold诞生的最重要背景和意义。据悉,目前已开源的Uni-Fold训练代码,经过MPI并行、数据异步读取、混合精度训练等优化工作,支持高效GPU训练。基于优化后的训练代码,深势科技团队实现在128块NVIDIAGPU上进行Alphafold2模型的全规模训练,并将持续优化所得模型。Uni-Fold的推理代码更加轻量、高效,在相同硬件环境下,可获得与公布的Alphafold2代码相比2-3倍的效率提升。“可以说Alphafold2开源了产品,但没有开放产品的流水线,对于训练模型来说,训练代码就是流水线,也是行业真正的技术壁垒所在。”孙伟杰解释,“我们的复现是把训练代码、相应数据、训练过程等全部复现一遍,等于把流水线造出来并且开放给大家,全行业可以一起来应用改进、解决实际问题。”谈到开源这个决定,孙伟杰直言,开源是一种协作模式,与商业利益并不冲突,最终还是要看谁能有更好地开发这个生态,“我们希望给所有的结构生物学领域的研究者提供一个更高的起点,大家没必要重复浪费资源。大家可以在我们工作的基础上继续向前。”创新研究范式加速药物研发流程药物研发领域以昂贵、冗长、试错空间有限、不确定性高著称。更关键的是,在行业竞争愈发激烈的今天,容易试出来的药物和材料已经被挖掘得差不多了。行业迫切地需要更好的计算模拟及设计工具,把以实验为主的研发范式,变为“计算设计-实验验证”的研发范式。对于蛋白质水平的药物研究,本质上都可以抽象为微观原子、电子层面的相互作用问题。在实际计算中,当原子、电子等微观粒子数量增多,会陷入维数灾难,计算量随微观粒子的数量指数上升的问题。因此,“我们开创性地提出了‘物理模型+人工智能+前沿计算方法’的科学研究新范式,开发出新一代人工智能分子模拟技术。”孙伟杰说,其基于第一性原理的计算数据,通过深度神经网络对原子相互作用势能进行参数化,构建了能够有效克服“维数灾难”的模型,解决了微尺度分子模拟中精度与效率难以兼顾的问题,突破性地实现了精度与效率的统一。具体来看,Alphafold是纯粹的归纳式的方法,它其实是把20亿数据和十几万个结构非常充分地融合起来,用AI大模型和算力去训练得到的结果。这也注定了它的局限性——越是传统实验室数据充足的部分,它表现越好,而在那些未解的结构和冷冻电镜等擅长的结构方面,由于数据的缺失,Alphafold2预测的表现不尽人意。换言之,“在它没见过相应蛋白质的情况下,它是不好预测的。”张林峰说,“而前沿的难题正是数据不充分的地方。”比如在蛋白和蛋白相互作用方面,有效的实验数据只有1万个,如果纯粹通过把这些数据学会的方式去做预测,难度更大、置信度也更低。孙伟杰坦言,人工智能蛋白质结构预测很热门,但行业更多的还是基于归纳的范式,“更多地是用很多现实的数据去训练一个AI模型,然后去推跟它相似的道路。但是这其中有一个很重要的悖论:药物靶点、靶标的价值和它的数据成反比,真正有价值的药物靶点,都没有数据。”“没有历史数据的靠什么,其实只能靠物理模型。”孙伟杰说,还是要从底层做起,用AI+物理模型计算,再去求解药物设计中的很多通用问题。在相同的测试条件下,Uni-Fold的预测精度与DeepMind官方发布的Alphafold2模型接近。深势科技团队使用Uni-Fold对CASP14蛋白预测任务中的序列数据集进行了直接测试,平均Ca-lDDT达到82.6。可以说,Uni-Fold是“训练公开版的Alphafold2”,而且硬件适配与效率更加优化。“尽管DeepMind开源了推理代码,但模型的训练技术才是核心竞争力。下一步,物理模型和数据驱动结合的解决方案将为蛋白结构和药物设计行业提供更好的基础。”中科院院士、北京大学教授、深势科技首席科学顾问鄂维南说。深势科技也对Uni-Fold进行了进一步的开发和优化,集成于旗下自主研发的一站式计算辅助药物设计平台Hermite中,供用户使用。Hermite是根植于云计算的临床前药物设计全流程计算平台,致力于为药物科研工作者提供数据、算法、算力三位一体的一站式解决方案。在Uni-Fold前,Hermite上已集成多个重量级功能。例如基于Uni-Fold等方法得到蛋白结构后进行蛋白的动力学模拟、结构精修或环区优化的RiD模块;在药物优化阶段比较不同分子与蛋白靶点结合活性差别的Uni-FEP模块,等等。“上世纪六十年代,一些国际大药企就开始用很多计算的方法辅助药物研发了,只不过辅助的程度很浅,主要是看一下药物的三维结构、做一些小型的药物改动。现在介入的程度越来越深了,可以看到在药物设计的各个主要环节,都有计算和AI的身影。计算对实验的渗透率是一个逐步提高的过程,也是我们努力的一个方向。”孙伟杰说,据他介绍,目前已有超过一千个学术研究机构在用深势科技的科学计算软件进行科学研究,这些机构包括国内的北大、清华、中科院等在内,几乎遍布全球。在药物设计行业,深势科技已经积累了超过十家合作伙伴,此外,在材料设计领域也已与宁德时代共建联合实验室,推动先进算法在新能源领域的应用,一起研究面向未来的电池材料。海量资讯、精准解读,尽在新浪财经APP