基于人工智能(AI)的蛋白结构预测工具合集
王建民
蛋白质折叠涉及重新排列空间中的线性氨基酸序列,使其处于低能状态。仅基于氨基酸序列预测正确的三维结构非常困难,其原因在于肽键的自由组合会产生大量的可能性:即使对于一个小的蛋白质进行结构域顺序抽样,耗费的时间都将超过宇宙的年龄,因此计算预测是为了规避顺序抽样问题。在过去的40年里,计算预测一直在稳步改进,通过X射线晶体学、核磁共振波谱和低温电子显微镜(cryo-EM)等实验确定蛋白质结构序列的同源性。自1994年起,每两年通过将计算预测方法应用于最新解析的蛋白质结构评估其性能。三年前,AlphaFold的首次实施已经是将人工智能应用于解析蛋白质结构的革命性进步。2020年,重新设计的AlphaFold近乎完美地精确预测出了蛋白质三维结构,其预测水准与实验室水平相差无几,一举破解了困扰学界长达五十年之久的“蛋白质折叠”难题。DeepMind团队提出了一种计算方法名为AlphaFold2,即使在不知道相似结构的情况下,也可以以原子精度定期预测蛋白质结构。2021年7月15日,DeepMind团队在Nature杂志上发表了文章"HighlyaccurateproteinstructurepredictionwithAlphaFold",描述了AlphaFold2是一个基于神经网络的全新设计的AlphaFold版本,其预测的蛋白质结构能达到原子水平的准确度。2021年7月15日,华盛顿大学蛋白设计研究所DavidBaker教授课题组及其他合作机构在Science上发表论文"Accuratepredictionofproteinstructuresandinteractionsusingathree-trackneuralnetwork",公布了其开源蛋白质预测工具RoseTTAFold的研究结果。
AlphaFold2和RoseTTAFold等数据和人工智能驱动的蛋白质折叠预测工具为大分子结构预测和设计提供了强大的驱动力。本文旨在总结相关工具。
https://github.com/sacdallago/folding_tools
声明:本文非商业目的,图片主要来源于twitter,google和微信群聊,部分文字摘自工具简介。
基于MSA
使用多序列比对(MSA)作为输入
AlphaFold2
2021年7月15日,DeepMind团队在Nature杂志上发表了文章"HighlyaccurateproteinstructurepredictionwithAlphaFold",描述了AlphaFold2是一个基于神经网络的全新设计的AlphaFold版本,其预测的蛋白质结构能达到原子水平的准确度。目前,DeepMind在GitHub上公开了AlphaFold2的源代码,还免费开放了AlphaFold数据集。
https://github.com/deepmind/alphafold
https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb
https://alphafold.ebi.ac.uk/
Jumper,J.,Evans,R.,Pritzel,A.etal.HighlyaccurateproteinstructurepredictionwithAlphaFold.Nature596,583–589(2021).
https://doi.org/10.1038/s41586-021-03819-2
RoseTTAFold
2021年7月15日,华盛顿大学蛋白设计研究所DavidBaker教授课题组及其他合作机构在Science上发表论文"Accuratepredictionofproteinstructuresandinteractionsusingathree-trackneuralnetwork",公布了其开源蛋白质预测工具RoseTTAFold的研究结果。
https://github.com/RosettaCommons/RoseTTAFold
https://www.ipd.uw.edu/2021/07/rosettafold-accurate-protein-structure-prediction-accessible-to-all/
https://robetta.bakerlab.org/
https://www.rosettacommons.org/docs/latest/application_documentation/structure_prediction/fold-and-dock
Accuratepredictionofproteinstructuresandinteractionsusingathree-trackneuralnetwork.Science 15Jul2021:eabj8754
DOI:10.1126/science.abj8754
ColabFold
ColabFold通过将MMseqs2的快速同源搜索与AlphaFold2或RoseTTAFold相结合,加速预测蛋白质结构和复合物。ColabFold的搜索速度提高了40-60倍,并优化了模型利用率,每天可以在具有一个图形处理单元的服务器上预测近1,000个结构。与GoogleColaboratory相结合,ColabFold成为一个免费且可访问的蛋白质折叠平台。
https://github.com/sokrypton/ColabFold
https://colabfold.mmseqs.com/
Mirdita,M.,Schütze,K.,Moriwaki,Y.etal.ColabFold:makingproteinfoldingaccessibletoall.NatMethods19,679–682(2022).
https://doi.org/10.1038/s41592-022-01488-1
OpenFold
OpenFold是DeepMind的AlphaFold2的PyTorch复现版本,用于自动处理蛋白质折叠实验。OpenFold并不是同类中的第一个,但它是迄今为止最完整的,并且拥有与AlphaFold相等或更高的能力。与AlphaFold一样,以自己的名义,OpenFold是完全开源的,并且在非常宽松的许可下提供。两者的参数都可以轻松下载并在CCBY4.0下获得许可,而通过GitHub提供的代码在Apache2.0下获得许可。这意味着任何有兴趣的人都可以将OpenFold用于几乎任何目的。
OpenFold和AlphaFold之间最明显的区别在于,虽然AlphaFold是为JAX工作流开发的,但OpenFold的所有代码都基于PyTorch环境。OpenFold也是可训练的,这意味着可以为专业研究创建变体,这与AlphaFold不同。
https://openfold.io/
https://github.com/aqlaboratory/openfold
https://colab.research.google.com/github/aqlaboratory/openfold/blob/main/notebooks/OpenFold.ipynb
https://huggingface.co/nz/OpenFold
Uni-Fold
深势科技重磅推出蛋白质结构预测工具Uni-Fold,成功复现曾引起生物学界轰动的AlphaFold2的全规模训练,并开源训练代码与推理代码。
Uni-Fold克服了AlphaFold2未开源训练代码、硬件支持单一、模型不可商用等局限性,在训练与推理环节进行了NVIDIAGPU上的适配、性能优化及功能完善等工作,为更多人参与推动领域进一步发展提供了基础。
https://github.com/dptech-corp/Uni-Fold
https://colab.research.google.com/github/dptech-corp/Uni-Fold/blob/main/notebooks/unifold.ipynb
Li,Z.,Liu,X.,Chen,W.,Shen,F.,Bi,H.,Ke,G.andZhang,L.,2022.Uni-Fold:AnOpen-SourcePlatformforDevelopingProteinFoldingModelsbeyondAlphaFold.bioRxiv.
FastFold
蛋白质结构预测是结构生物学领域理解基因翻译和蛋白质功能的重要方法。AlphaFold将Transformer模型引入了具有原子精度的蛋白质结构预测领域。然而,AlphaFold模型的训练和推理由于其特殊的性能特点和巨大的内存消耗,既耗时又昂贵。在本文中,作者提出了FastFold,这是一种用于训练和推理的蛋白质结构预测模型的高效实现。FastFold包括一系列基于对AlphaFold性能的全面分析的GPU优化。同时,通过DynamicAxialParallelism和DualityAsyncOperation,FastFold实现了高模型并行缩放效率,超越现有流行的模型并行技术。实验结果表明,FastFold将整体训练时间从11天减少到67小时,并实现了7.5-9.5倍的长序列推理加速。此外,我们将FastFold扩展到512个GPU,并以90.1%的并行效率实现了总计6.02PetaFLOPs。
https://github.com/hpcaitech/FastFold
Cheng,S.,Wu,R.,Yu,Z.,Li,B.,Zhang,X.,Peng,J.andYou,Y.,2022.FastFold:ReducingAlphaFoldTrainingTimefrom11Daysto67Hours.arXivpreprintarXiv:2203.00854.
HelixFold
百度飞桨强大的高性能并行计算能力支持下,飞桨螺旋桨PaddleHelix生物计算团队发布了蛋白结构预测模型HelixFold,围绕着显存峰值、训练速度、分布式策略进行了全面性能优化。通过与原版AlphaFold2模型和哥伦比亚大学MohammedAlQuraishi教授团队基于PyTorch复现的OpenFold模型的性能对比测试显示,HelixFold模型的训练性能相比AlphaFold2提升106.97%,相比OpenFold提升104.86%。
https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold
Wang,G.,Fang,X.,Wu,Z.,Liu,Y.,Xue,Y.,Xiang,Y.,Yu,D.,Wang,F.andMa,Y.,2022.HelixFold:AnEfficientImplementationofAlphaFold2usingPaddlePaddle.arXivpreprintarXiv:2207.05477.
MEGA-Fold
使用计算机高效计算获取蛋白质空间结构的过程被称为蛋白质结构预测,传统的结构预测工具一直存在精度不足的问题,直至2020年谷歌DeepMind团队提出AlphaFold2,该模型相较于传统工具预测精度大幅提升,所得结构与真实结构误差接近实验方法,但是仍存在数据前处理耗时过长、缺少MSA时预测精度不准、缺乏通用评估结构质量工具的问题。针对这些问题,高毅勤老师团队与MindSpore科学计算团队合作进行了一系列创新研究,开发出更准确和更高效的蛋白质结构预测工具MEGA-Protein。
MEGA-Protein主要由三部分组成:蛋白质结构预测工具MEGA-Fold,MSA生成工具MEGA-EvoGen和蛋白质结构评分工具MEGA-Assessement。
https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/applications/MEGAProtein
Liu,S.,Zhang,J.,Chu,H.,Wang,M.,Xue,B.,Ni,N.,Yu,J.,Xie,Y.,Chen,Z.,Chen,M.andLiu,Y.,2022.PSP:Million-levelProteinSequenceDatasetforProteinStructurePrediction.arXivpreprintarXiv:2206.12240.
基于pLM
使用来自蛋白质语言模型(pLM)的嵌入作为输入
ESM-Fold
大型语言模型超越简单的模式匹配来执行更高级别的推理并生成逼真的图像和文本。虽然在较小规模上研究了针对蛋白质序列训练的语言模型,但随着规模的扩大,人们对它们对生物学的了解知之甚少。在这项工作中,研究人员训练了多达150亿个参数的模型,这是迄今为止要评估的最大的蛋白质语言模型。研究人员发现,随着模型的缩放,它们学习的信息能够以单个原子的分辨率预测蛋白质的三维结构。研究人员提出了ESMFold,用于直接从蛋白质的单个序列进行高精度的端到端原子级结构预测。ESMFold与AlphaFold2和RoseTTAFold对于语言模型可以很好理解的低困惑度序列具有相似的准确性。ESMFold推理比AlphaFold2快一个数量级,从而能够在实际时间尺度上探索宏基因组蛋白的结构空间。
Lin,Z.,Akin,H.,Rao,R.,Hie,B.,Zhu,Z.,Lu,W.,dosSantosCosta,A.,Fazel-Zarandi,M.,Sercu,T.,Candido,S.andRives,A.,2022.Languagemodelsofproteinsequencesatthescaleofevolutionenableaccuratestructureprediction.bioRxiv.
HelixFold-single
通过人工智能的方法,从蛋白质的一级序列精准预测其三维结构,已被AlphaFold2证实可达到实验精度。但AlphaFold2的模型主要依赖多序列比对(MSA)和模版(Template)信息,而从蛋白质数据库中搜索MSA和模版又是一件非常耗时的工作,成为模型向产业界大规模推广的一个瓶颈。HelixFold-Single将自然语言处理领域的语言模型,应用在蛋白质上,构建了预训练语言模型,从3亿的无标注蛋白质数据中提取信息,建模蛋白质之间的关系,从而将MSA同源信息隐式的学习在语言模型中,进而有效地替代MSA信息检索模块,极大地提升了结构预测的速度。在精度不输AlphaFold2的基础上,效率最多提升近千倍。
https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold-single
Fang,X.,Wang,F.,Liu,L.,He,J.,Lin,D.,Xiang,Y.,Zhang,X.,Wu,H.,Li,H.andSong,L.,2022.HelixFold-Single:MSA-freeProteinStructurePredictionbyUsingProteinLanguageModelasanAlternative.arXivpreprintarXiv:2207.13921.
OmegaFold
AI预测蛋白质3D结构,仅通过单条蛋白序列就能搞定。也就是说,AI预测蛋白质结构,可以不需要蛋白质进化过程中的同源信息。一些人工设计的蛋白质药物和工业合成用酶,也可以通过AI预测3D结构,确定其对人体的功能。
达成这一成就的AI算法名为OmegaFold,在最近的全球持续蛋白质预测竞赛中,整体预测能力已经与DeepMind此前开发的AlphaFold2,和华盛顿大学开发的RoseTTAFold不相上下,甚至有些指标优于后两者。
研究成果来自国内AI创新药物公司华深智药,一家成立不到一年的中国初创企业,孵化自张亚勤旗下的清华大学智能产业研究院。
https://github.com/HeliXonProtein/OmegaFold
https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/beta/omegafold.ipynb
Wu,R.,Ding,F.,Wang,R.,Shen,R.,Zhang,X.,Luo,S.,Su,C.,Wu,Z.,Xie,Q.,Berger,B.andMa,J.,2022.High-resolutiondenovostructurepredictionfromprimarysequence.bioRxiv.
IgFold
抗体的结合是由一组6个loops的结构决定,这个6个loops构成互补决定族(CDR)。这些CDRloops的精准建模可以深入了解这些结合机制和提高使特定抗体的合理设计成为可能。
5个CDRloops倾向于采用通过序列相似性可以有效地进行预测,然而,重链的第3个CDRloop(CDRH3),由于其在序列和长度上的增加的多样性,不能通过序列相似性有效的预测,已被证明是对模型是很大的挑战。重链和轻链之间界面上的H3loops的位置,使其构象依赖于链间方向(inter-chainorientation),鉴于H3loop在结合中的核心作用,预测H3loops结构的效果对于了解抗体-抗原相互作用,实现抗体的合理设计非常重要。
JOHNSHOPKINS大学发表了可以快速预测抗体结构的IgFold深度学习方法,其准确率可以与AlphaFold2媲美。IgFold先从一个预训练的语言模型提取预序列表征(该模型在558M自然抗体序列上进行的训练),然后通过图网络直接预测backboneatoms坐标。其预测结构质量与其他工具类似或更好(包括AlphaFold),且预测所需时间不到1分钟。在这个时间尺度上进行准确的结构预测,使得以前不可行的调研与验证方法成为可能。
同时为了证明IgFold的能力,作者预测了105K配对的8个抗体序列的结构,将观察到的抗体结构空间扩大了40倍以上。
https://github.com/Graylab/IgFold
https://colab.research.google.com/github/Graylab/IgFold/blob/main/IgFold.ipynb
Ruffolo,J.A.andGray,J.J.,2022.Fast,accurateantibodystructurepredictionfromdeeplearningonmassivesetofnaturalantibodies.BiophysicalJournal,121(3),pp.155a-156a.
参考资料
Jumper,J.,Evans,R.,Pritzel,A.etal.HighlyaccurateproteinstructurepredictionwithAlphaFold.Nature(2021).
https://doi.org/10.1038/s41586-021-03819-2
Accuratepredictionofproteinstructuresandinteractionsusingathree-trackneuralnetwork.Science 15Jul2021:eabj8754
DOI:10.1126/science.abj8754
Edich,M.,Briggs,D.C.,Gao,Y.,Kippes,O.andThorn,A.,2022.TheimpactofAlphaFoldonexperimentalstructuresolution.FaradayDiscussions.
https://github.com/sacdallago/folding_tools
往期精品(点击图片直达文字对应教程)机器学习
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集
人工智能预测蛋白质结构(新知)
近日,人工智能企业上海天壤智能科技有限公司宣布,其自主研发的深度学习蛋白质折叠预测平台在国际蛋白质结构预测竞赛蛋白质测试集的评估中获得优异成绩,位居全球同类型团队前列。在400个氨基酸的蛋白链预测时,该预测平台仅耗时16秒。
科学家说,蛋白质是细胞中的主要功能分子,在细胞中发挥多种多样的功能。比如,作为酶发挥催化作用,参与生物体内新陈代谢的调剂作用,运输代谢物质,用于细胞骨架的形成,以及参与免疫、细胞分化、细胞凋亡等过程。作为构成生命的基本元件,破解蛋白质的功能是揭开各种生命现象的金钥匙。
据天壤创始人薛贵荣博士介绍,为了行使特定功能,蛋白质必须折叠成特定的结构,只有少数蛋白质处于天然无折叠状态但仍具有功能。蛋白质的三维结构也直接决定蛋白质的功能,一旦三维结构被破坏,蛋白质功能随之丧失。许多疾病都是由体内重要的蛋白质结构异常引起。因此,研究蛋白质结构有助于了解蛋白质的功能和作用,从而带来医疗保健、食品可持续性、创新生物技术等方面的改善,推进生命科学、药物研发、合成生物学方面的发展。
在生命科学领域,观测和解析蛋白质结构一直是个令人着迷的话题,吸引着众多科学家攻坚,但也面临着难度大、成本高、进展有限的局面。传统观测蛋白质结构的方法主要有三种:核磁共振、X射线、冷冻电镜。这些方法依赖大量试错以及昂贵的设备,每种结构的研究往往长达数年。现有的实验手段也还不足以揭示一些重要的蛋白结构,需要借助更多生物信息技术、计算生物学手段去探索。但使用普通的计算机软件来计算蛋白质结构,运算量相当惊人,连超级计算机也难以承受。为此,蛋白质结构预测成为结构生物学的重要分支,研究人员通过开发相关的人工智能算法,根据氨基酸序列来预测蛋白质的空间结构。
“从人工智能战胜围棋世界冠军,到城市交通调度,人工智能在解决复杂系统问题中显示出了惊人的智能决策能力,而蛋白质结构预测虽然是生物学课题,同时也属于复杂场景的问题,可以体现人工智能在基础科学研究中的巨大潜能,我们不愿意错过这道风景。”薛贵荣说,像这种全方位的创新项目非常珍贵,它覆盖了交叉学科的创新、行业的创新、基础科学的创新、人工智能算法和工程能力的创新。
近期的这些进展表明,将人工智能应用于蛋白质结构领域,通过预测的方式破解传统观测方法所不能解析的一些结构,且可信度比较高,十分接近事实。这种人工智能的结构预测算法,有望成为科学家的利器,加速生命科学领域的研究发展。
目前,单个蛋白质折叠预测只是一个起点,蛋白质通常以复合物的形式成对或成组发挥功能,以承担生命所需的种种功能,而许多蛋白质复合物的结构至今仍然成谜。薛贵荣认为,未来还要进一步提高人工智能算法的普适性和准确度,在揭示多个蛋白质之间的相互作用方面作出贡献,帮助人类寻找到精准的疾病治疗新方法。
《人民日报》(2021年12月27日18版)(责编:赵欣悦、袁勃)分享让更多人看到