《自然》深度:人工智能预测蛋白结构,这一革命性技术将走向何方
▎药明康德内容团队编辑
去年7月,DeepMind公司在《自然》杂志上发表了人工智能(AI)系统AlphaFold根据氨基酸序列预测蛋白质三维结构的研究。研究人员同时发布了AI系统的源代码,让这一技术能够为广大科学家和研究人员使用。自从文章发表以来,AlphaFold在生命科学领域掀起了前所未有的热潮。很多人将它称为改变游戏规则的科学突破。近日,《自然》杂志的一篇深度文章对AlphaFold对生命科学领域的变革性影响和未来进行了阐述。在今天这篇文章里,药明康德内容团队将与读者分享文章的精彩内容。点击文末“阅读全文/Readmore”,即可访问《自然》官网,阅读全文。
惊艳的成功
在2020年,AlphaFold人工智能系统在国际蛋白质结构预测竞赛(CASP)上击败其余的参会选手,精确地基于氨基酸序列,预测蛋白质的3D结构。其准确性可与使用冷冻电子显微镜(CryoEM)、核磁共振或X射线晶体学等实验技术解析的3D结构相媲美。当时,这一突破被多家媒体称为“变革生物科学和生物医学”的突破。前基因泰克(Genentech)首席执行官ArthurD.Levinson博士称这一成就为“划时代的进步”(onceinagenerationadvance)。
在2021年7月,描述AlphaFold和RoseTTAFold人工智能系统的论文在《科学》和《自然》上发表,并且提供了开源的源代码和相关信息,让科学家们能够使用这些工具。一周后,DeepMind宣布,AlphaFold预测出98.5%的人类蛋白结构,以及20种模式生物(比如小鼠、果蝇和大肠杆菌)的蛋白结构,将超过36.5万个蛋白结构存放到与欧洲生物信息研究所(EMBL-EBI)合作构建的公开数据库中。这一数据库目前储存的蛋白结构已经达到了接近100万个。
而今年,DeepMind计划发布超过1亿种结构预测,这接近所有已知的蛋白数目的一半,比已经通过实验手段确定的蛋白结构数目多出几百倍!
根据DeepMind的统计,如今已经有超过40万人使用了EMBL-EBI的AlphaFold数据库。它对生命科学的哪些领域产生了重大影响?
图片来源:123RF
解析蛋白结构
AlphaFold解析蛋白结构的能力已经让很多生物学家们信服。只要蛋白会折叠成单一的固定三维构象,AlphaFold的预测很难被超越。斯德哥尔摩大学(StockholmUniversity)的蛋白生物信息学家ArneElofsson博士表示,“这是一个一键式的解决方案,可能提供你想要的最佳模型。”
即使在AlphaFold不太确信的地方,“它也非常善于告诉你它什么时候不起作用”,Elofsson博士说。在这种情况下,预测的结构有些像浮动的面条。这通常对应于缺乏确定构象的蛋白区域。这种内在无序的区域约占人类蛋白质组的三分之一,只有当另一种分子(如信号伙伴)存在时才可能被明确定义。
▲AlphaFold准确预测的蛋白结构(a)和不能准确预测的蛋白结构(b和c)(图片来源:参考资料[5])
AlphaFold存储到EMBL-EBI数据库中的蛋白结构也已经立刻得到了应用。伦敦大学学院的ChristineOrengo博士团队正在对其进行搜索,在未通过实验验证的情况下,发现新的蛋白类型。他们已经发现了成百上千个潜在的新蛋白家族,扩展了科学家们对蛋白形态和功能的了解。该研究团队的另一个项目是挖掘从海洋和废水中收获的DNA序列数据库,试图发现新的降解塑料的蛋白酶。利用AlphaFold快速预测成千上万蛋白的结构,研究人员希望更好地理解酶如何通过进化分解塑料,并潜在对其进行改进。
哈佛大学进化生物学家SergeyOvchinnikov博士说,将任何编码蛋白的基因序列转变为可靠结构的能力为进化研究提供了强大的工具。研究人员通常通过比较基因序列,确定物种之间的相关性。对于亲缘关系较远的基因,DNA序列比较可能无法找到进化上的亲缘关系,因为序列已经发生很大的变化。但是蛋白结构与基因序列相比变化较慢,通过比较蛋白结构,研究人员可能发现被忽视的古老关联。“这为研究蛋白的进化和生命起源开辟了一个惊人的机会。”瑞士联邦理工学院(SwissFederalInstituteofTechnology)计算生物学家PedroBeltrao博士说。
赋能科学实验
对于要确定特定蛋白详细结构的科学家来说,AlphaFold的预测不一定马上提供解决方案。然而,它提供了一个可以通过实验验证或改进的初始模型,它本身有助于理解实验数据。例如,X射线晶体学的原始数据是X射线的衍射图案。通常情况下,科学家需要对蛋白的结构进行初步猜测来解释这些图案。英国剑桥大学的结构生物学家RandyRead博士表示,以前他们需要通过拼凑公开蛋白数据库中相关蛋白的信息或使用实验方法来确定最初的蛋白模型。现在,AlphaFold的预测使科学家无需这一策略就可以解析大多数X射线衍射图案。
Read博士和其他研究人员已经利用AlphaFold从X射线数据中确定了晶体结构,这些晶体结构在没有足够的起始模型的情况下无法解析。“人们正在解析多年来一直未能解析的结构。”Read实验室的前博士后ClaudiaMillánNebot博士说,她预计将会看到大量新蛋白质结构提交到公开数据库,很大程度上是由于AlphaFold。
图片来源:123RF
专攻利用冷冻电镜捕获快速冷冻蛋白图片的实验室也能从中获益。北卡罗来纳大学教堂山分校结构生物学家和药理学家BryanRoth博士表示,有些情况下AlphaFold的模型准确地预测了G蛋白偶联受体(GPCRs)的独特特征。它们是重要的药物靶标。他说:“AlphaFold在生成第一个模型方面表现很好,然后我们用实验数据对其进行了完善,这为我们节省了时间。”
但Roth博士补充道,AlphaFold并不总是那么准确。在某些情况下,AlphaFold以很高的置信度标记了结构预测,但实验数据显示它是错误的。即使软件得到了正确的结果,它也无法模拟蛋白质与药物或其他小分子(配体)结合时的样子,这些小分子可以实质性地改变蛋白结构。
在药物发现工作中,研究人员越来越常见地使用计算对接软件来筛选数十亿个小分子,以找到可能与靶点蛋白结合的分子,这表明它们可能成为有用的药物。Roth博士现在正与加州大学旧金山分校的药物化学家BrianShoichet博士合作,比较AlphaFold的预测与实验确定的结构。
Shoichet博士说,他们将工作限制在AlphaFold的预测与实验确认的结构相吻合的蛋白质上。然而即使在这些情况下,已有的对接软件和AlphaFold也会找出不同的化合物。他的团队现在正在合成利用AlphaFold预测的结构发现的潜在药物,并在实验室中检验它们的活性。
帮助药物发现
Shoichet博士说,生物医药和生物技术公司的研究人员对AlphaFold帮助药物发现的潜力感到兴奋。2021年11月,DeepMind推出了IsoMorphicLabs,旨在将AlphaFold和其他AI工具应用于药物发现。
Schrödinger公司疗法开发负责人KarenAkinsanya博士表示,她的团队已经在利用AlphaFold结构进行虚拟筛选和候选药物的设计方面取得了一些成功。在有些情况下,AlphaFold提供的结构已经可以指导药物发现。不过,“很难说它是一种灵丹妙药,因为在一种结构上你可能做得非常好,但是这不意味着它可以类推到所有结构。“Akinsanya博士说。在药物发现方面,AlphaFold提供的结构永远不会完全取代实验获得的结构,但它们可能与实验手段相辅相成,加快药物开发的过程。
图片来源:123RF
AlphaFold的局限
虽然AlphaFold取得了飞速进展,但是科学家们表示,清楚它的局限性非常重要,尤其是现在并不专攻蛋白结构预测的研究人员也在使用它。
科学家们曾尝试使用AlphaFold推测错义突变(包括与早期乳腺癌相关的基因突变)对蛋白结构的影响,结果显示该软件尚没有预测新突变对蛋白影响的能力。
AlphaFold的团队现在正在思考如何设计一个神经网络来处理新突变。DeepMind的科学家JohnJumper博士预计这需要该网络更好地预测一个蛋白如何从未折叠状态转变为折叠状态。哥伦比亚大学计算生物学家MohammedAlQuraishi博士表示,这可能需要仅依靠在蛋白物理学方面学到的知识来预测结构的软件。他说:“我们感兴趣的一件事是,如何在不使用进化信息的情况下,从单一序列做出预测。这是一个仍然悬而未决的关键问题。”
AlphaFold的设计是用来预测单一结构,但许多蛋白具有多种构象,这对它们的功能可能很重要,而且AlphaFold预测的是孤立的蛋白结构,很多蛋白与包括DNA、RNA、脂肪分子和矿物质在内的配体结合在一起行使功能。
AlphaFold的未来
虽然AlphaFold的设计是用来预测单一结构,但是当DeepMind公布其源代码之后,科学家们很快发现了让它预测蛋白之间相互作用的方法。在AlphaFold代码公布后几天,东京大学的蛋白生物信息学家YoshitakaMoriwaki博士就发现,如果用一个长连接序列将两个蛋白序列拼接在一起,AlphaFold可以准确预测它们的相互作用。
在2021年10月,DeepMind发布了一项名为AlphaFold-Multimer的更新,这一系统经过特别训练用于识别蛋白复合体。DeepMind的团队用它来识别公开蛋白数据库中的上千种复合体,发现它能够预测大约70%的已知蛋白间相互作用。
这些工具已经在帮助研究人员发现新的结合蛋白。斯德哥尔摩大学ArneElofsson博士的团队近日在NatureCommunications上发表的论文中,利用AlphaFold与实验数据相结合,预测了65000种可能相互作用的蛋白对(proteinpairs)的结构。
这些虚拟筛选为进一步实验提供了良好的起点。“看起来好看并不意味着它是对的,”Elofsson博士说,“你需要实验数据来表明你是对的。”
华盛顿大学DavidBaker教授的团队利用AlphaFold和RoseTTAFold对酵母表达的所有蛋白对之间的相互作用进行了模拟,发现了超过100种此前不知道的相互作用。
近日,Baker教授团队在《自然》杂志上发表的论文再进一步,利用预测蛋白结构的算法,研究团队只需要知道靶点蛋白的结构信息,就能够发现与它们以高亲和力结合的迷你蛋白(miniproteins)。Baker教授表示,这一发现有望带来药物发现和分子生物学的范式改变。
AI工具不仅改变了科学家如何确定蛋白是什么样子,一些研究人员正在利用它们制造全新的蛋白。DavidBaker教授说:“深度学习正在完全改变我的课题组进行蛋白设计的方式。”在去年12月《自然》上发表的论文中,研究人员成功让AI想象和构建出前所未有的蛋白结构。
在这项研究中,研究者不再给AI系统一些已知蛋白结构的氨基酸序列进行预测,而是向它们提供一些随机的序列,并且会向其中引入一些突变,直到AI的神经网络确定能够将这些序列折叠成稳定的结构为止。
研究人员在细菌中表达了129种AI系统想象出的蛋白,并且发现大约五分之一的蛋白会折叠成AI预测的结构。“这首次证明了使用这些神经网络可以用来设计蛋白。”Baker博士说。现在,他的团队正在使用这一策略设计有用的蛋白,比如能够催化特定化学反应的蛋白催化剂。科学家们只需要给出负责特定催化功能的氨基酸,然后让AI想象出其它部分。
AlphaFold革命将走向何方,即便是这一领域的专家也觉得难以预测。Baker教授表示,领域的变化如此之快,预计不到一年的时间,我们就会看到使用这些工具获得的新重大突破。”
EMBL-EBI的计算生物学家JanetThornton博士则认为AlphaFold最大的影响之一是说服生物学家对计算和理论方法提供的洞见更加开放。“对我来说,革命就是心态的改变。”
参考资料:
[2]Bryantetal.,(2022).Improvedpredictionofprotein-proteininteractions
免责声明:药明康德内容团队专注介绍全球生物医药健康研究进展。本文仅作信息交流之目的,文中观点不代表药明康德立场,亦不代表药明康德支持或反对文中观点。本文也不是治疗方案推荐。如需获得治疗方案指导,请前往正规医院就诊。
版权说明:本文来自药明康德内容团队,欢迎个人转发至朋友圈,谢绝媒体或机构未经授权以任何形式转载至其他平台。转载授权请在「药明康德」微信公众号回复“转载”,获取转载须知。
分享,点赞,在看,聚焦全球生物医药健康创新
综述:深度学习在蛋白质结构预测中的最新进展
感受野
这仅是指可以随时看到输入图像的区域(或更一般地说,输入特征集)。具体而言,感受野是用于计算单个输出值的输入的空间范围,通常是针对网络中给定卷积层(最常见的是最后一个)中的单个神经元计算的。由单层3×3卷积核组成的网络中的输出神经元将具有3×3的感受野,因为网络对每个输出像素进行的最终计算仅考虑输入中的中心像素及其直接邻居(图1)。但是,将模型与连续的卷积层组合在一起,可以增加感受野;即每个输入像素周围的区域,可以在计算最终层的输出时将其包括在内(参见图2A)。需要注意的是,感受野的大小受输入大小的限制;可以通过添加更多的卷积层使得CNN具有较大的感受野,但是如果CNN仅在尺寸为32×32的输入上运行,则无论层数如何——即使其“理论”感受野可能更大,实际感受野只能增长到最大尺寸32×32。实际上,最大感受野必须足够大以捕获输入数据中的相关结构。
扩张卷积也可以用来以更少的层数来增加感受野。
在扩张卷积中,通过在每个像素之间包含空格来拉伸每个卷积核(图2B)。扩张率为2的3×3卷积核实际上将与5×5卷积核覆盖相同的区域,但是仅具有9个可学习的参数,而不是25个(图2B)。不利的一面是,扩张卷积核只能采样25个像素中的9个,因此会有间隙。但是,这些间隙可以由后来的扩张卷积层填补,因此由扩张卷积层构成的网络可以覆盖任意大的感受野,而无需成倍地增加可学习的参数。在CASP13中,扩张卷积用于许多性能最高的CNN模型中。
CNN模型能够接受图像类型的输入并产生图像类型的输出。
该类型网络通过全卷积网络(FCN;不要与全连接网络相混淆)实现,全部由一堆卷积层组成,一直到输出为止,而没有改变图像分辨率或丢失图像结构的最大池化层或全连接层。因此,FCN的特性是它们可以设置产生与输入尺寸完全相同的输出图像。一个典型应用是获取图像并生成一个与其大小相同的输出图像,该输出图像突出显示输入图像中的特定对象,这被称为图像分割。在结构生物信息学中,这种类型的体系结构已被许多小组用于联系预测中,其中网络的输入是一个或多个特征,取决于目标序列的(平方)长度(例如氨基酸协方差矩阵),并产生相同形状的输出(接触图)。
用于距离预测的CNN
由于残基协方差矩阵与接触图之间的对应关系,将其视为类似于图像的输入,以得出映射是很自然的。CNN非常适合此类预测问题,因为卷积层的关键思想是识别局部模式,而不管其在输入中的空间位置如何。举例来说,将这个想法带入接触预测领域,将卷积过滤器应用于氨基酸协方差矩阵,可以使模型检测由任意数量的残基分隔的局部序列基序之间的相互作用,与观察到的结构模式非常吻合(例如,可以适应可变长度的循环甚至整个域插入,而无需更改模型)。乍看之下,CNN模型(其中关键功能单元仅设计为使用数据的局部子集)可以胜过全局模型(在该模型中同时考虑所有残基协方差数据),这一事实似乎令人惊讶。另一方面,栈式连续卷积层以增加模型的总体感受野的能力在理论上使模型可以在预测单个接触时根据需要使用目标蛋白的尽可能多的协变数据。在最近的工作中,我们创建了具有不同大小的感受野的CNN模型,以评估是否有必要对协变数据进行完整的全局查看,以便在预测接触时获得高精度。我们发现,增加网络的感受野可以提高精度,这是可以预期的,但是只有在最大感受野大小达到15个残基左右时,才能实现显着的增益。感受野大小的进一步增加(最高达估计的最大值49)导致平均精度几乎没有提高。
人工智能里程碑突破:DeepMindI精准预测蛋白质结构
▲AlphaFold的神经网络模型构架(图片来源:DeepMindBlog)
惊人的准确性
AlphaFold的第一次运用了人工智能的方法,即深度学习来预测蛋白质中成对氨基酸之间的距离。但是试图在这种方法的基础上继续前进时,却碰壁了。因此,他们改变策略,开发了一个AI网络,该网络结合了决定蛋白质如何折叠的物理和几何约束信息,旨在用该网络来预测目标蛋白质序列的最终结构,而非氨基酸之间的关系。
CASP历时数月,预测了总共约100个蛋白质结构。其中,许多条目惊人的准确性使AlphaFold脱颖而出。AlphaFold将近三分之二的预测与实验结构相当。目前尚不清楚某些情况下AlphaFold的预测与实验结果之间的差异是预测误差还是实验的假象。在被认为中等难度的蛋白质靶标上,其他团队的最佳表现通常在100分的预测准确度上得分75,而在相同的靶标上AlphaFold得分大约90。
AlphaFold的预测与通过核磁共振成像技术确定的实验结构的匹配性较差,但是这可以归结为如何将原始数据转换成一个模型。该网络还为蛋白质复合物或组中的单个结构建模,从而与其他蛋白质的相互作用扭曲了它们的形状。
哥伦比亚大学的计算生物学家MohammedAlQuraishi是CASP的参与者,他渴望在比赛后深入研究AlphaFold的性能细节,进一步了解该系统的工作原理,他表示这有可能使蛋白质结构更容易解析,而AlphaFold在结构生物学领域可能是变革性的。
▲2006-2020年CASP比赛中最佳蛋白折叠预测系统的评分表现
(图片来源:DeepMindBlog)
更快的结构解析
AlphaFold系统已被用于解析过一种细菌蛋白结构。卢帕斯的实验室为解析该蛋白曾得到大量的蛋白晶体并且收集了很多套X单晶衍射数据用于结构解析,这些数据获取起来非常繁琐,而且成功率极低。但在使用该系统后,半小时就完成了卢帕斯团队十年的工作量。
图:DeepMind的首席执行官DemisHassabis
来源:DeepMind
现阶段AlphaFold系统可能需要几天的时间才能得出预测的结构,其中包括对蛋白质不同区域可靠性的评估。公司的联合创始人兼首席执行官DemisHassabis说,该公司才刚刚开始了解生物学家的需求。他们认为药物发现和蛋白质设计是潜在的市场,所以公司计划让AlphaFold系统有更高的实用性,以便其他科学家可以使用它。
今年年初,生物学家斯蒂芬·布罗恩已利用该系统预测了SARS-CoV-2的蛋白结构。后续的实验结果显示,AlphaFold预测的新冠病毒Orf3a蛋白结构与冷冻电镜解析的结构非常相似。这让斯蒂芬在内的科学家都为之一震。
▲AlphaFold根据氨基酸序列预测的蛋白结构与实验手段解析的结果几乎完全重合
(绿色,实验结果;蓝色,计算预测结果;
图片来源:DeepMindBlog)
对现实世界的影响
AlphaFold现阶段虽不太可能取代冷冻电镜等相关解析蛋白结构的实验手段,但它的出现意味着,生物学家们可以将计算方法预测蛋白结构作为科学研究的工具之一。另外,在现有的繁杂的基因组数据中,新一代分子生物学家如何针对数据转换为蛋白结构解析提供帮助,是AI技术在结构生物学发展中的难题。
AlphaFold的表现将是DeepMind公司发展的一个转折点。DemisHassabis表示像蛋白质结构预测这类科学难题也是其人工智能可以做出的最重要的应用之一。返回搜狐,查看更多