博舍

综述:深度学习在蛋白质结构预测中的最新进展 人工智能预测蛋白质结构的模型

综述:深度学习在蛋白质结构预测中的最新进展

感受野

这仅是指可以随时看到输入图像的区域(或更一般地说,输入特征集)。具体而言,感受野是用于计算单个输出值的输入的空间范围,通常是针对网络中给定卷积层(最常见的是最后一个)中的单个神经元计算的。由单层3×3卷积核组成的网络中的输出神经元将具有3×3的感受野,因为网络对每个输出像素进行的最终计算仅考虑输入中的中心像素及其直接邻居(图1)。但是,将模型与连续的卷积层组合在一起,可以增加感受野;即每个输入像素周围的区域,可以在计算最终层的输出时将其包括在内(参见图2A)。需要注意的是,感受野的大小受输入大小的限制;可以通过添加更多的卷积层使得CNN具有较大的感受野,但是如果CNN仅在尺寸为32×32的输入上运行,则无论层数如何——即使其“理论”感受野可能更大,实际感受野只能增长到最大尺寸32×32。实际上,最大感受野必须足够大以捕获输入数据中的相关结构。

扩张卷积也可以用来以更少的层数来增加感受野。

在扩张卷积中,通过在每个像素之间包含空格来拉伸每个卷积核(图2B)。扩张率为2的3×3卷积核实际上将与5×5卷积核覆盖相同的区域,但是仅具有9个可学习的参数,而不是25个(图2B)。不利的一面是,扩张卷积核只能采样25个像素中的9个,因此会有间隙。但是,这些间隙可以由后来的扩张卷积层填补,因此由扩张卷积层构成的网络可以覆盖任意大的感受野,而无需成倍地增加可学习的参数。在CASP13中,扩张卷积用于许多性能最高的CNN模型中。

CNN模型能够接受图像类型的输入并产生图像类型的输出。

该类型网络通过全卷积网络(FCN;不要与全连接网络相混淆)实现,全部由一堆卷积层组成,一直到输出为止,而没有改变图像分辨率或丢失图像结构的最大池化层或全连接层。因此,FCN的特性是它们可以设置产生与输入尺寸完全相同的输出图像。一个典型应用是获取图像并生成一个与其大小相同的输出图像,该输出图像突出显示输入图像中的特定对象,这被称为图像分割。在结构生物信息学中,这种类型的体系结构已被许多小组用于联系预测中,其中网络的输入是一个或多个特征,取决于目标序列的(平方)长度(例如氨基酸协方差矩阵),并产生相同形状的输出(接触图)。

用于距离预测的CNN

由于残基协方差矩阵与接触图之间的对应关系,将其视为类似于图像的输入,以得出映射是很自然的。CNN非常适合此类预测问题,因为卷积层的关键思想是识别局部模式,而不管其在输入中的空间位置如何。举例来说,将这个想法带入接触预测领域,将卷积过滤器应用于氨基酸协方差矩阵,可以使模型检测由任意数量的残基分隔的局部序列基序之间的相互作用,与观察到的结构模式非常吻合(例如,可以适应可变长度的循环甚至整个域插入,而无需更改模型)。乍看之下,CNN模型(其中关键功能单元仅设计为使用数据的局部子集)可以胜过全局模型(在该模型中同时考虑所有残基协方差数据),这一事实似乎令人惊讶。另一方面,栈式连续卷积层以增加模型的总体感受野的能力在理论上使模型可以在预测单个接触时根据需要使用目标蛋白的尽可能多的协变数据。在最近的工作中,我们创建了具有不同大小的感受野的CNN模型,以评估是否有必要对协变数据进行完整的全局查看,以便在预测接触时获得高精度。我们发现,增加网络的感受野可以提高精度,这是可以预期的,但是只有在最大感受野大小达到15个残基左右时,才能实现显着的增益。感受野大小的进一步增加(最高达估计的最大值49)导致平均精度几乎没有提高。

特稿|AI小样本训练,16秒精准预测蛋白质结构:自起炉灶有深意

2016年,DeepMind人工智能机器人AlphaGo以4:1的总比分取胜围棋世界冠军韩国棋手李世石。这一年,一家刚刚成立的上海AI企业开始参考AlphaGo开发一套AI围棋程序,随后击败世界围棋冠军朴廷桓。2020年,DeepMind人工智能程序AlphaFold2快速精准预测蛋白质结构,准确度媲美冷冻电镜等实验技术。一年后,这家本土AI企业再次推出国产自研蛋白质结构预测平台TRFold。

近日,上海天壤智能科技有限公司XLab发布蛋白质结构预测平台TRFold,其最新版本的预测精度接近AlphaFold2,并突破AlphaFold2需要超大算力的瓶颈,采取权重共享的方式节约算力,预测大多数蛋白质链所需时间不超过16秒。

在AlphaFold2已开源的情况下为何还要做人工智能蛋白质结构测序?再做一遍的挑战在哪?数据、算力不足情况下如何训练出一个好模型?接下来又会用TRFold做什么?

天壤创始人薛贵荣在接受澎湃新闻(www.thepaper.cn)专访时表示,AlphaFold2为结构生物学研究打开了大门,它就像“莱特兄弟的飞机”,其中的核心技术一定要自己掌握。如果不参与其中的技术演变,只能停留在最初的“飞机”结构。

研发TRFold也让薛贵荣意识到,AlphaFold2另一个贡献是其训练方法可以回馈AI,去做更好的AI。

薛贵荣表示,如果每个模型都需要标注10000个数据才能训练,对AI是一场灾难。实际上,数据是永远不够的,算力也是永远不够的,这种情况下算法的创新就显得更加重要了,比如能否用10张图片跑出一个好模型。他认为,小样本下的机器学习对AI来说是个大挑战,而AI的工业化生产并不需要那么多数据,这才是正道。

未来,团队也将继续深入模拟蛋白质与蛋白质之间的相互作用,基于相互作用可构建大规模相互作用网络图、靶点发现、突变蛋白质结构模拟、抗体模拟等。

TRFold基于CASP14蛋白质测试集的评估数据。绿色:真实结构,蓝色:预测结构。

单张GPU下16秒精准预测

蛋白质是生命的物质基础,其三维结构直接决定了它的功能,一旦三维结构被破坏,蛋白质功能随之丧失或改变,许多疾病就是由体内重要的蛋白质结构异常所致。

每个蛋白质的氨基酸链扭曲、折叠、缠绕成复杂的结构,想要破解这种结构通常需要花很长时间,甚至难以完成。截至目前,约有18万个蛋白质的结构已经用实验方法得到了解析,但这在已经测序的数十亿计的蛋白质中只占了很小一部分。

在蛋白质结构解析的几十年历史中,X射线晶体学、核磁共振波谱学(NMR)、冷冻电镜(Cryo-SEM)技术纷纷发挥了巨大贡献。但这些传统方法往往依赖大量试错和昂贵设备,每种结构的研究都要花数年时间。

直到AI的加入,让单个蛋白质折叠预测问题得到基本解决,加速结构生物学的发展。2020年,DeepMind人工智能程序AlphaFold2在蛋白质结构预测竞赛CASP14中首次利用人工智能技术快速精准预测蛋白质结构,准确度达到原子级别,可与冷冻电镜等实验技术相媲美。

而国内的学术界和产业界也在蛋白质结构预测领域紧追国际步伐。除了中科院的Falcon、腾讯的TFold、深势科技的Uni-Fold,天壤自研蛋白质结构预测平台TRFold基于CASP14的蛋白质测试集进行企业内测,取得82.7分(TM-Score,评估蛋白质结构拓扑相似性的指标),超过华盛顿大学生物学家DavidBaker团队81.3分的成绩,仅次于AlphaFold2的91.1分。

TRFold采取权重共享的方式节约算力,算力消耗约AlphaFold2的1/32。在训练时,AlphaFold2使用了128个TPUv3核心(约等于256张GPU),TRFold仅使用了8张NvidiaRTX3090GPU,以极小算力取得接近AlphaFold2的成绩。

TRFold采用5000万参数循环多轨注意力网络,同时支持氨基酸残基间的距离预测和蛋白质全链结构预测,400个氨基酸的蛋白链使用单张NvidiaRTX3090GPU的预测时间只需16秒,而AlphaFold2预测约同样数量的氨基酸蛋白链则需要70多秒。

在CASP14比赛期间,CASP官方曾发起一次针对新型冠状病毒肺炎的蛋白质结构预测,天壤基于TRFold提交的模型(nsp6-D2)预测结果还被CASP选为六个“最具可信度模型”之一。

传统意义上,单个蛋白质模型的预测分数达到90分以上就与实验室的预测结果差别不大,薛贵荣表示,TRFold将继续迭代,单蛋白的结构模拟只是开始,未来天壤计划模拟蛋白质与其复合物的相互作用,包括小分子、多肽、其他蛋白质等。

他表示,目前明确的研究方向是继续深入模拟蛋白质与蛋白质之间的相互作用。基于相互作用可构建大规模相互作用网络图,以及靶点发现、突变蛋白质结构模拟、抗体模拟等。

“蛋白质将来会是一个相互作用网络,我们获得这个作用网络以后就可以进行深入分析。”薛贵荣说,如果将来每个人的蛋白质结构和作用网络能全部测出,就可以提前通过蛋白质内部结构的突变分析,预测出未来的健康状况和治疗手段。

“这里面能做的事情实在太多了,我们今天只是海里的水取了一瓢出来看了一下而已。”而挑战也是不言而喻的,多蛋白的相互作用带来的算力消耗更大,假设一个亿的蛋白质和另外一个亿的蛋白质交互,那是一个亿乘一个亿的计算组合。“这个组合是爆炸的,用什么样的算法、策略来加速,这是一个很挑战的事。”

薛贵荣

“莱特兄弟的飞机”

2016年,DeepMind人工智能机器人AlphaGo约战围棋世界冠军韩国棋手李世石,以4:1的总比分取胜。这一年,刚刚成立的天壤开始参考AlphaGo开发一套AI围棋程序。

2018年5月,天壤AI围棋执白子对战世界围棋冠军朴廷桓,激战三小时后朴廷桓认负。而这套AI围棋程序最后用在了城市交通信号灯的控制上,帮助缓解交通拥堵。

2019年,天壤涉足蛋白质结构预测。薛贵荣常被问到,为何要进入蛋白质预测领域,又或是在AlphaFold2已开源的情况下为何还要做蛋白质结构测序。

“从我们一开始做AI围棋程序时就慢慢认识了AI的威力。这么多年来天壤一直希望用AI解决有挑战的大问题,比如交通,然后是生物。”薛贵荣表示,相对于交通这样从宏观层面用算法调度,人类对微观世界的认识就更有限了。

“我们从2019年开始做这件事,那时候的蛋白质结构数据和今天其实没什么大的变化。十来万有结构的蛋白质能不能用算法手段把微观世界未知的蛋白质三维结构刻画出来,这其实是一个很挑战的事。那时候有没有AlphaFold2也不知道,更别谈能不能做得出来。”

但如果蛋白质预测模型能达到实验仪器的精度,将是巨大进步。幸运的是,2020年底,AlphaFold2证明了算法的力量,让整个结构生物学界震惊,掀开了结构生物学的全新一页,“以前做一个蛋白质结构预测可能要花一到两年,突然一个小时就能解决。”

蛋白质结构预测问题的解决是生命科学探索的全新起点,薛贵荣说,这次变革为整个行业带来很大发展机会,技术突破将重构原来生物应用层面的许多逻辑,比如制药流程、疾病治疗、个性化医疗等。但事实上,AlphaFold2的开源代码只是推理代码,并没有公开训练代码。

AlphaFold2的成功是蛋白质结构预测方向的重大突破,而围绕蛋白质结构功能问题且能够达到实际落地应用准确度要求的AI算法的开发才刚刚开始,没有训练模型经验或没有具备能够训练出AlphaFold2结果的能力,是无法把该技术推进到解决更深层次的问题的。

“整个核心技术还是把控在人家自己手里,今天人家给你东西可以用,至于怎么来的你不知道。”薛贵荣表示。

比如DeepMind团队10月份发布的预测蛋白质复合体结构的AlphaFold-Multimer就是在AlphaFold2基础上进行微小调整后,将蛋白质与蛋白质之间的关系预测出来。这种更深入的研究就必须要有自己搭建底层算法的能力,才能真正应用在生物学领域。

“就像做飞机一样,从莱特兄弟发明第一架飞机能飞起来,如果中间过程不参与,你永远还是停留在当时那个结构。但今天大飞机在天上飞起来,能承载那么多人,其中有非常多的研究,很多创新也从中不断出现。”

薛贵荣说,今天DeepMind的AlphaFold2就是“莱特兄弟的飞机”,其中的核心技术一定要掌握,才能和其他团队在同一赛道比赛。“AlphaFold不断往前跑,我们也在不断追赶他们。”

AlphaFold2“反哺”AI

“我们很长时间一直也是在70分左右徘徊,也徘徊了很长时间,最近跳跃到80多分。”在两年半的研发时间里,TRFold经历了几十个版本的迭代,当前的训练架构是从今年初就开始设计,接着处理数据、训练数据,不停迭代,耗费10个月时间,目前取得82.7分。

而让团队头痛的挑战就是算力和内存,这决定了模型的大小。薛贵荣介绍,“小模型的记忆力是有限的,模型越大记忆能力就越强,但模型越大对应的算力和内存需求就越大。”在训练资源有限的情况下,团队从数据和网络设计上做出改进,在算力巨大差距的情况下实现了相对较好的结果。

“在后续构建蛋白质相互作用网络的过程中,涉及一个蛋白质和另一个蛋白质的相互作用,以及多个蛋白质之间的相互作用,计算量呈指数级增长。因此,TRFold以较小算力需求快速预测蛋白质结构对后续开展深入研究具有深远意义。”天壤XLab团队负责人苗洪江表示。

数据是机器学习的燃料,但相比以往图像识别机器学习算法需要依靠百万张图片数据来训练模型和系统,用实验方法已经解析的蛋白质结构只有十几万个。机器学习大牛吴恩达认为,人工智能落地的挑战之一是小数据的问题,如何使机器学习即使面对小数据也能工作。

而这也是困扰薛贵荣的问题。他和苗洪江第一天见面聊就在探讨,有结构的蛋白质数据够不够,能不能训练出一个满足效果的模型,还是说再等冷冻电镜10年,等50万数据出来就够了。“那时候我们也很担心,我们就怕这个领域做下去真的是10年以后的事了。”

但AlphaFold2证明,通过算法和模型设计、蒸馏数据等手段,是可以取得好结果的。相比AlphaFold2,TRFold的算法模型仅采用少量的真实数据训练,即从多个宏蛋白质组序列库中寻找出蕴含更精准共进化信息的多序列排列,使模型在训练过程中能够获得对真实共进化信息更好的识别能力,从而取得对氨基酸残基距离和坐标更准确的预测结果。团队有望在近期加入蒸馏数据增强工作,进一步提高模型的预测和泛化能力。

回过头来看,薛贵荣认为,除了为结构生物学研究打开了大门,AlphaFold2另一个贡献是其训练方法可以回馈AI,去做更好的AI。

“AI三个步骤,数据标注准备好,算法设计好,目标要想好,有了这三件事再加上算力支持才能做AI。”但实际上,数据是永远不够的,算力也是永远不够的,这种情况下算法的创新就显得更加重要了。

“10张图片能不能出来一个很好的模型?别变成给你10000张图片能不能出来一个好的模型。小样本情况下的机器学习能不能做好,其实这对整个AI领域是一个很大的挑战,因为只有小样本才能具备规模化、工业化的生产能力。”薛贵荣表示,如果每个模型都需要标注10000个数据才能训练,数据标注行业的发展势头会很好,但对AI来讲是一场灾难。

“做什么事都要标大量的数据怎么玩得下去?人工智能偏人工了。我们真正要做的是把智能这块做强,把人工这块限制在一个框框内,这才是我们真正讲的从人工智能走向机器智能。”从AlphaFold到AlphaFold2,薛贵荣认为,这就是人工智能走向机器智能的巨大变化。AI的工业化生产并不需要那么多数据,这才是正道。

AIR观点|许锦波:AI预测蛋白质结构将引领智能药物发现

   

6月2日,2022北京智源大会AI赋能生命健康专题论坛成功召开,AIR许锦波教授、聂再清教授、彭健教授均线上出席演讲。生命健康关系着国计民生,是人工智能技术交叉落地最重要的领域之一。生命健康领域覆盖面非常广,从未知疾病预警、新药开发,到老药新用、辅助诊断、医疗影像、智能手术机器人,很多方向都有AI的用武之地。除了上述三位AIR的教授外,本次论坛还邀请到了加州大学圣巴巴拉分校计算机系助理教授李磊,加拿大MILA实验室助理教授唐建,星药科技创始人&CEO李成涛以及智源健康计算中心负责人黄文灏、叶启威,智源青年科学家袁洋等,为大家介绍在AI+生命健康领域最新前沿进展。

       

蛋白质是组成人体细胞、组织的重要成分,参与了细胞生命活动的每一个进程。对蛋白质功能的研究,有助于了解人体内部的生命活动,对于疾病的发生和药物治疗起到极其关键的作用。另一方面,结构决定功能。因此,想要了解蛋白质的功能,就必须先探究蛋白质的三维结构。在2022年北京智源大会上,清华大学智能产业研究院(AIR)卓越访问教授许锦波详细介绍了蛋白质结构预测的发展历史以及前沿进展。

许教授首先介绍了蛋白质的基础知识。蛋白质是由不同氨基酸按一定顺序通过脱水缩合形成的多条多肽链。这些多肽链因为自身以及环境中的溶剂的力作用,在三维空间上折叠成一种具有特定形状的结构。传统方法需要利用专门的实验手段和仪器(比如冷冻电镜)才能解析出一个蛋白质的结构,耗费时间从几个月到几年不等,费用也特别昂贵。很自然地,人们就希望能设计专门的计算机模型和算法,实现对任意输入的氨基酸序列,自动预测其折叠后的三维结构,这就是所谓的蛋白质结构预测问题。

蛋白质结构预测具有非常大的挑战,被誉为结构生物学界的半个世纪难题。大概在2016年之前的方法大多都是基于能量优化,即根据蛋白质最终的折叠状态位于能量最低点,从而利用能量函数来进行构象搜索。然而,蛋白质含有成千上万的原子,构象空间巨大,而能量函数本身不光滑,导致优化效率很低。从2016年之后,得益于深度学习的发展,研究人员考虑利用深度神经网络直接预测原子之间的相互作用关系。特别是许教授团队基于ResNet开发出RaptorX-Contact方法,首次证明了深度学习方法在预测蛋白质三维结构中的无限潜力和可能性,在号称蛋白质结构预测的奥林匹克比赛CASP12上展现了其强大的性能。许教授的方法能实现原子之间的空间距离的精准预测。

在这之后,就是广为人知的AlphaFold2在CASP14上取得了惊人的预测精度,引起了学术界的广泛关注。作为第二代深度学习算法,AlphaFold2的成功主要来自于三个方面的原因:进化论、大量的蛋白质序列数据和适量的蛋白质结构数据。关于第一点,同一个家族的蛋白质结构相似,空间中相邻的氨基酸相互影响,同时进化。另外两个原因为深度神经网络的学习提供了充分的训练信号。尽管AlphaFold2已经取得了瞩目的成功,但是蛋白质结构预测仍然存在很多需要进一步解决的问题。例如,蛋白质复合物结构预测、蛋白质和其他分子(peptide,DNA,RNA)的相互作用预测、抗体抗原相互作用预测、点突变对结构和功能的影响、蛋白质优化和设计等。

最后,许锦波教授总结了领域的发展现状并且展望了未来趋势。AI颠覆了蛋白质结构预测,改变了分子生物学家的传统思维模式:基于序列的研究变成基于结构的研究。然而,未来我们只是简单地沿着AlphaFold2的路线做点改进,重新训练一个模型?答案显然是否定的。我们更重要的是,需要以现有的研究成果为基础,重点解决前面所提到的比如复合物结构预测的问题。

关于论坛

2022年北京智源大会于5月31日至6月2日召开,汇聚26场由各领域领军学者主导的专题论坛。大会将紧紧围绕这些当前学术领域迫切需要解决的问题,以及产业落地过程中存在的诸多挑战,延续一贯以来的“内行认可”品质口碑,分享真正内行认可的重大成果与真知灼见,献上一场诚意满满的AI盛宴!

讲者介绍

许锦波教授,清华大学卓越访问教授、美国芝加哥丰田计算技术研究所教授、《Bioinformatics》编委。他毕业于中国科学技术大学计算机系,中国科学院计算技术研究所和加拿大滑铁卢大学,是美国麻省理工学院数学系和人工智能实验室博士后。许教授的研究兴趣包括人工智能和机器学习、优化算法和计算生物学。他于2016年首次证明了深度学习可以大幅度提高蛋白质结构预测的性能,引领了人工智能在蛋白质结构预测领域的突破。许教授曾获美国斯隆研究奖、美国自然科学基金早期职业奖、《PLoSComputationalBiology》创新突破奖、国际计算生物学顶级会议RECOMB最佳论文奖和时间检验奖(Test-of-TimeAward),并多次接受英美杂志如《纽约时报》、《经济学人》、《财富》、《自然》和《科学》的采访。许教授也是2021年未来科学大奖论坛的主讲嘉宾,2021年北京大学顶尖讲学者和2022年在瑞典的诺贝尔论坛特邀嘉宾。

AlphaFold2预测蛋白、肽结构网站简易版教程

最近AlphaFold因为预测蛋白质结构准确率之高,并在7月于nature上发表论文,公开AlphaFold2源代码之后着实火了一把。这种能站在巨人肩膀上干活的人都在跃跃欲试。简易版AlphaFold2使用方法来了,记录一下。

b站作为年轻人最常使用的软件,流量会让资源越来越丰富,对于懒癌患者的小象,着手研究AlphaFold使用方法的第一反应是去b站找教程。b站也很给力:

AlphaFold2三分钟手把手教学(用DeepMind预测蛋白质折叠结构)-up主“丸子的科学家探索”

该视频演示了蛋白质结构预测的流程。也公布了预测的网站:

https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb

But谷歌浏览器打不开,打不开的原因你们懂的。但问题总有解决的办法。如果需要可私信。

解决浏览器问题之后,再打开AlphaFold2预测网站,跟随着b站视频预测就好了

我预测了一个FAGDDAPRA序列

预测时间大概在5分中左右,可能是因为序列太短了,导致评分都不高结构如下

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇