博舍

AI破解蛋白质折叠难题,“这可能改变一切” 人工智能蛋白质折叠技术有哪些

AI破解蛋白质折叠难题,“这可能改变一切”

【新智元导读】近日,DeepMind在预测蛋白质结构方面迈出了一大步!公司表示,其已经解决了关键的「蛋白质折叠问题」,这个问题在生物圈已被研究50年之久。马斯克、李飞飞等大佬纷纷点赞!DeepMind这一历史性进展有助于加快药物发现速度,对理解人类生命形成机制至关重要。

刚刚,一个困扰生物学家50年的难题,被AI解决了。

去年年底,谷歌DeepMind推出了一种名为AlphaFold(一个用人工智能加速科学发现的系统,它基于蛋白质的基因序列,就能预测蛋白质的3D结构)的算法。

今天,在有「蛋白质奥林匹克竞赛」称呼的国际蛋白质结构预测竞赛(CASP)上,AlphaFold击败了其余的参会选手,能够精确地基于氨基酸序列,预测蛋白质的3D结构。

其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或X射线晶体学等实验技术解析的3D结构相媲美。

DeepMind联合创始人及CEO德米斯·哈萨比斯(DemisHassabis)表示:「DeepMind背后的终极愿景一直是构建通用人工智能,利用通用人工智能来极大地加速科学发现的步伐,帮助我们更好地了解周围世界。」

谷歌CEO桑达尔·皮查伊(SundarPichai)在Twitter上为此次突破点赞。

这是一个跨圈儿的壮举,李飞飞、马斯克等大佬也纷纷点赞:

《自然》杂志更是评论其为「这将改变一切」。

五十年来,蛋白质折叠一直是生物学的巨大挑战。

分子折叠方式变幻无穷,其重要性很难估计。大多数生物过程都围绕蛋白质,而蛋白质的形状决定了其功能。只有当知道蛋白质如何折叠时,他我们才能知晓蛋白质的作用。

例如,胰岛素如何控制血液中的糖水平以及抗体如何对抗冠状病毒,都由蛋白质的结构来决定。

我们都知道,DeepMind以战胜人类而著名,在国际象棋,围棋,星际争霸II和老式的Atari经典游戏中都占据了上风。

但超人游戏从来都不是主要目标,游戏为程序提供了训练场,一旦程序足够强大,就可以解决现实世界中的问题!

蛋白质折叠50年来重大突破,AI破解预测难题

蛋白质的形状与其功能密切相关,预测蛋白质结构的能力可以帮助我们更好地理解蛋白质的功能和工作原理。世界上许多重大的挑战,比如发展疾病的治疗方法或者找到分解工业废物的酶,从根本上来说都与蛋白质及其所扮演的角色有关。

传统上,得到蛋白质的形状需要花费数年的时间。

从1950年代开始,使用X射线束照射结晶的蛋白质并将衍射光转化为蛋白质原子坐标的技术,确定了蛋白质的第一个完整结构。X射线晶体学已经证明了蛋白质结构的绝大部分。但是,在过去的十年中,低温电子显微镜已成为许多结构生物学实验室的首选工具。

最新的技术进步已使使用低温电子显微镜生成接近原子分辨率的电子密度图成为可能

这些方法依赖于进行大量试验和改进错误,可能需要花费数年的工作时间来完成每个蛋白质结构,并需要使用数百万美元的专门设备来进行试验和验证。

1969年,塞勒斯·莱文塔尔(CyrusLevinthal)指出,用暴力计算法列举一个典型蛋白质的所有可能构型所需的时间比已知宇宙的年龄还要长,他估计一个典型蛋白质有10^300种可能构型。

1972年,克里斯蒂安·安芬森(ChristianAnfinsen)在诺贝尔化学奖的获奖感言中,提出了一个著名的假设:

克里斯蒂安·安芬森

理论上来说,蛋白质的氨基酸序列应该完全决定其结构。

这个假设引起了长达五十年的探索,即仅仅基于蛋白质的1D氨基酸序列就能够计算预测蛋白质的3D结构。然而,这个假设面临的一个主要的挑战是,理论上蛋白质在进入最终的3D结构之前可以折叠的方式数量是一个天文数字。

1980年代和1990年代,尽管早期计算机科学家已经取得了进展,但是从蛋白质的组成中推断结构仍非易事。

为什么预测蛋白质的形状非常困难?

在自然界中,蛋白质是氨基酸链,可以自发折叠成无数令人难以想象的形状,有些甚至在几毫秒之内完成。

为了了解蛋白质如何折叠,DeepMind的研究人员在一个包含约170,000个蛋白质序列及其形状的公共数据库中对其算法进行了训练。在相当于100到200个图形处理单元(按现代标准,计算能力适中)上运行,这种训练需要数周时间。

AlphaFold解决蛋白质折叠问题的方法

DeepMind在2018年首次使用最初版本的AlphaFold参加CASP13,在参赛者中获得了最高的准确度,随后又在《自然》杂志上发表了一篇关于CASP13方法及相关代码的论文,这篇论文继续启发了其他工作和社区开发的开源实现。

现在,DeepMind开发的新的深度学习架构已经推动了CASP14方法的变化,使之能够达到前所未有的精确度。这些方法的灵感来自生物学、物理学和机器学习领域,当然还有过去半个世纪许多蛋白质折叠领域的科学家的工作。

一个折叠的蛋白质可以被认为是一个「空间图形」,其中残基是节点和边连接的。

这张图对于理解蛋白质内部的物理相互作用以及它们的进化历史是很重要的。

对于在CASP14上使用的最新版本的AlphaFold,研究人员创建了一个基于注意力的神经网络系统,通过端到端的训练来解释这个图的结构,同时推理出它正在构建的隐式图。它通过使用多重序列对齐(MSA)和氨基酸残基对的表示来精化这个图结构。

通过迭代这个过程,系统可以对蛋白质的基本物理结构进行准确的预测,并能够在几天的时间内确定高度精确的结构。

此外,AlphaFold还可以使用内部置信度来预测每个预测的蛋白质结构的哪些部分是可靠的。

这个系统所使用的数据包括来自蛋白质数据库的大约170,000个蛋白质结构,以及包含未知结构的蛋白质序列的大型数据库。它使用了大约128个TPUv3(大致相当于100-200个GPU),只训练了几周时间,在当今机器学习领域中使用的大多数SOTA模型中来说是一个相对较少的计算量。

CASP:蛋白质奥林匹克竞赛

1994年,JohnMoult教授和KrzysztofFidelis教授创立了CASP(CriticalAssessmentofStructurePrediction)作为两年一次的盲选评估,以促进研究并建立蛋白质结构预测的最新水平。

CASP是评估预测技术的标准。更重要的是,CASP选择那些最近才经过实验确定的蛋白质结构(有些在评估时仍在等待确定)作为研究小组测试其结构预测方法的目标;而这些结构的预测方法并没有提前公布。参与者必须直接预测蛋白质的结构,这些预测随后会在可用时与实验数据进行比较。

CASP用来测量预测准确性的主要指标是GDT(GlobalDistanceTest),其范围是从0-100。简单地说,GDT可以大致地被认为是氨基酸残基在阈值距离内与正确位置的百分比。根据Moult教授的说法,90分左右的GDT可以被认为是与实验方法得到的结果相竞争的。

在今天公布的第14届CASP评估结果中,最新的AlphaFold系统在所有目标中总体得分中位数为92.4GDT。这意味着预测平均误差(RMSD)约为1.6埃(1埃等于0.1纳米),相当于一个原子的宽度(或0.1纳米),即使对于最难的蛋白质目标,即那些最具挑战性的自由建模分类,AlphaFold也可以达到87.0GDT的中位数。

在接受检验的近100个蛋白靶点中,AlphaFold对三分之二的蛋白靶点给出的预测结构与实验手段获得的结构相差无几。CASP创始人Moult教授表示,在有些情况下,已经无法区分两者之间的区别是由于AlphaFold的预测出现错误,还是实验手段产生的假象。

这些令人兴奋的结果为生物学家打开了使用深度学习计算结构预测作为科学研究的核心工具的潜力,DeepMind的方法可能特别有助于预测重要类别的蛋白质结构,如膜蛋白等。

图:ALPHAFOLD预测了与实验结果相对应的高度精确的结构

历史性突破!AlphaFold将「改变一切」

如果把基因组序列比喻为标识一个人的身份信息,蛋白质的三维结构就是一个人的身形容貌。

预测蛋白质结构变化的重要意义在于,包括癌症、痴呆等几乎所有疾病,都与细胞内蛋白质结构变化相关,如果能够掌握蛋白质结构的变化,将对疾病的预防、治疗等带来重要影响。

通常情况下,识别单个蛋白质的结构需要耗费科学家数年时间。如今,AlphaFold能在几天内提供精确到一个原子的结果。

此举将极大地加速人类对细胞组成部分的理解,对包括新冠肺炎在内所有疾病的研究均有所帮助。

在冠状病毒的结构中,像皇冠一样的刺突称为刺突糖蛋白(SpikeGlycoprotein,以下简称S蛋白),是结合人体细胞上相应受体的罪魁祸首;E蛋白是包膜蛋白,将病毒内部的遗传物质包裹起来;还有膜蛋白(M蛋白)和核衣壳蛋白(N蛋白)等结构。

冠状病毒结构示意图

三维结构的解析对于新冠病毒致病机理和药物设计具有非常重要的先决意义。

基于AlphaFold的新突破,人类未来也可能更快地发现更先进的新药物。

CASP联合创始人、马里兰大学帕克分校计算生物学家JohnMoult直言,「这是一件大事,在某种程度上来说,(蛋白质折叠)问题解决了。」

挑战赛评委之一的进化生物学家AndreiLupas进一步表示,「这将改变医学,这将改变研究,这将改变生物工程,这将改变所有一切。」

知名领域专家MohammedAlQuraishi发推称;「它们令人震惊——deepmind似乎已经解决了蛋白质结构预测问题。」

谷歌CEOSundarPichai在当天也在推特上分享了这一消息并表示:

「DeepMind难以置信的用AI进行蛋白质折叠预测的突破,将帮助我们更好地理解生命的最根本的根基,并帮助研究人员应对新的和更难的难题,包括应对疾病和环境可持续发展。」

参考链接:

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

由于微信公众号试行乱序推送,您可能不再能准时收到墨子沙龙的推送。为了不与小墨失散,请将“墨子沙龙”设为星标账号,以及常点文末右下角的“在看”。

墨子沙龙是以中国先贤“墨子”命名的大型公益性科普论坛,由中国科学技术大学上海研究院主办,中国科大新创校友基金会、中国科学技术大学教育基金会、浦东新区科学技术协会、中国科学技术协会及浦东新区科技和经济委员会等协办。

墨子是我国古代著名的思想家、科学家,其思想和成就是我国早期科学萌芽的体现,“墨子沙龙”的建立,旨在传承、发扬科学传统,建设崇尚科学的社会氛围,提升公民科学素养,倡导、弘扬科学精神。科普对象为热爱科学、有探索精神和好奇心的普通公众,我们希望能让具有中学同等学力及以上的公众了解、欣赏到当下全球最尖端的科学进展、科学思想。

关于“墨子沙龙”

人工智能预测蛋白质结构,难吗有啥用

果壳硬科技注:回顾2021年,什么技术最让科学家着迷?人工智能排得上号。在Science的2021年年度科学突破榜单上,AlphaFold和RoseTTA-fold两款人工智能预测蛋白质结构的技术位列榜首。

为什么要用AI预测蛋白质结构?蛋白质不止是一类营养素,某些具有特殊结构的蛋白质在药学和医学领域同样作用巨大。用传统方法寻找这些特殊蛋白,耗时数以年计,试错成本高,而同样的工作交给人工智能,只要几分钟就能完成。

但计算机科学和生物科学是两个完全独立的学科,计算机科学家为什么要跨行研究“生物学”?AI预测蛋白质结构能给产业带来哪些变化?以下是北京分子之心科技有限公司首席科学家许锦波的答案。

2022年4月17日,“科普中国-我是科学家”第37期“健康的防线”演讲现场,北京大学BIOPIC访问教授、北京分子之心科技有限公司首席科学家许锦波带来演讲《AI预测蛋白质结构,但这只是一个开始》。

许锦波演讲视频:

点击边框调出视频工具条

以下为许锦波演讲实录:

2022.4.17北京

大家下午好,欢迎大家来听我的演讲。我叫许锦波,我是个计算生物学家。

在大家的印象中,可能一个生物学家的实验室是这样的——

Pixabay

但我的办公室其实更像是这样——

作为计算生物学家,我主要工作是用计算技术去研究生物学问题,所以计算机是我最常用的工具。

我本科和硕士学的是计算机,研究计算机算法与计算机网络,以及分布式系统以及计算机安全,其实跟生物没有什么关系。

那为什么我要从一个非常热门的领域跳出来,去做蛋白质结构研究呢?

大概是读博士一年半的时候,一个偶然的机会我接触到生物学,接触到蛋白质结构预测问题。我当时的想法很单纯,觉得这个问题很有趣,也非常重要,并且非常难,所以就想去研究它。当我们选择研究课题的时候,通常要选择一些比较重要和困难的问题,因为如果这个问题不重要的话,就白花时间去研究了,没有人在乎;如果这个问题不那么难,可能几年之内就被别人做出来了,其实也没有多大意义。

演讲嘉宾许锦波:《AI预测蛋白质结构,但这只是一个开始》|拍摄:Vphoto

于是,我就从一个传统的计算机研究者切换到一个计算生物学研究者,想在读博士期间花几年时间去研究这个问题。当时根本没有想过自己以前根本没有学过生物学,心想如果一点结果都做不出来也没关系,到时候大不了去硅谷写代码,当码农。

那时候,科学家已经研究蛋白质结构这个问题大概四十年了,它真的是个非常难的问题。刚开始研究的时候,我也碰到很多困难。比如,刚才也说了,我本身没有学过生物学,所以前半年我读那些专业论文,很多专业名词都不知道是什么意思,也没有人去问,因为我的博士导师当时在加州学术休假,基本上两个月才能见到他一次;而且那时候也没有现在这么方便的网络视频、网络会议,所以刚开始的时候非常困难。

我们知道,细胞里有三种大分子:DNA、RNA和蛋白质。DNA和RNA记录了我们的遗传信息,但真正在细胞里面执行功能的是蛋白质。蛋白质怎么去执行功能?它在细胞里面折叠成固定的三维构型,这个三维结构决定了它的功能,这也正是为什么我们想研究蛋白质的三维结构。

这里展示了蛋白质结构与功能的三个例子。左边这幅图显示了新冠抗体和病毒刺突蛋白结合的样子,抗体通过和刺突蛋白结合,就可以阻挡新冠病毒进入人体细胞。中间这幅图片是一个血红蛋白,它的主要功能是帮助我们把氧气运输到人体各个地方。怎么运输?你看到中间有些小球,这些小球表示的是铁原子。血红蛋白把铁原子包裹起来,铁原子跟氧气结合,通过这种方式把氧气运输到各个细胞里面去。最右边的蛋白(朊蛋白)跟疯牛病有关系,这里显示了朊蛋白两种不同构型,左边的构型是正常的折叠状态,右边的是不正常的折叠状态。如果朊蛋白的折叠是右边这个形状的话,就会引起疯牛病。

所以,蛋白质结构是个非常重要的问题。

蛋白质由很多氨基酸通过化学键串在一起。这里我用一些小球去表示这些氨基酸,每种颜色的小球表示一种氨基酸。从数学角度,你也可以用一个字符串去表示一个蛋白质的氨基酸序列。每个氨基酸都是由几十个原子形成的,在这页幻灯片的下半部分,我画了一些原子结构,大家可以对蛋白质的分子式有一个直观的认识。现在我们只要知道氨基酸序列,就能知道蛋白质的分子式。

原子在细胞里面有相互作用力,最后会形成一个比较稳定的状态去执行某种特殊的功能。所以,虽然我们对蛋白质的分子式已经很了解,但知道这些组成蛋白质的原子最后会形成怎么样的构型仍是个很困难的问题。

在以前,我们没有特别好的方法去确定这些原子在三维空间中到底会处于什么样的位置。

这张幻灯片的左边展示了四个不同蛋白的结构,很漂亮,我们用软件把它画成了卡通形式,简化了结构的复杂度。但在右边,我们把蛋白质复合物的原子都画出来了,就变得非常复杂。我们可以用不同软件、不同表示形式把蛋白质的三维结构给画出来,去观察蛋白质到底长什么样。根据蛋白质的结构,我们可以在原子层面去分析、去预测这个蛋白质它到底会执行什么样的功能。

怎样才能得到蛋白质结构?在过去的几十年中,科学家们开发了不同的实验技术去观察和测定蛋白质在细胞里的三维构型,其中最精确的一种叫做晶体衍射技术。后续科学家们也开发了另外两种技术,一种是核磁共振,另一种是现在非常流行的冷冻电镜技术。这三种技术都可以以不同的方式去观察和测定蛋白质的三维构型,但也都存在问题。

首先,这些方法需要非常长的时间去测定哪怕一个蛋白质的三维构型。另外,它们的费用非常高。更致命的是,并不是所有蛋白质的三维构型都可以用这些实验技术给测出来。所以,我们需要另外想出方法去获得定蛋白质的三维构型,这也是为什么我们想做蛋白质结构预测——我们想通过计算技术去把蛋白质的三维结构给算出来,而不是用实验仪器测出来。

计算机预测蛋白质结构这个问题本身的定义很简单:假设我们有了一个蛋白质的氨基酸序列,能不能把它输入到计算机里面去,让计算机输出每个原子的三维坐标?然而,实际操作中是非常困难的,到目前为止已经研究了将近六十年了。

2016年前,当我们谈论蛋白质结构预测,通常意味着需要非常多的计算资源。那时候的科学家们通常用超级计算机去做蛋白质结构预测,只有少数几个研究组能够真正做到。即使这样,对于很小的蛋白质,预测成功率也非常低。

我本人从2001年开始研究这个问题,我的研究历程大概可以分为三个阶段——

2001到2006年,我主要使用能量优化的方法去做蛋白质预测。大家普遍认为蛋白质会折叠到最小能量状态,如果我们能把某个蛋白质的能量最优化,理论上就可以算出它的结构。这种方法会教计算机一步步怎么去优化能量,从而达到预测蛋白质结构的目的。当时虽然取得了一定成果,但结果还是无法令人满意,预测出来的结构离实验技术测出来的非常远。于是我意识到能量优化方法是走不通的。

2006到2014年期间,我开始使用机器学习去研究这个问题。传统的机器学习方法是直接把蛋白质的氨基酸序列映射到一个三维构型上去,比基于物理或是统计的方法做得好一点点,但也还有很多问题。当时大家认为这个问题没办法做出来,期间很多人都离开这个领域;另外,由于这个问题很长时间都没有得到什么本质上的改变,所以申请研究经费也非常困难。

2012年,深度学习开始在图像识别领域展示出威力,就有人很自然地想到,我们能不能用深度学习去做蛋白质结构预测。然而当时他们得到的结果跟传统的机器学习方法没有任何区别,也就是说在这个领域,最初得到的是个否定的结果。

2014年,我们设计了一种新的深度学习算法,开始使用深度学习去研究蛋白质结构。我们先在蛋白质二级结构预测上测试,发现深度学习对这个简单问题有效,就激发了我们去做进一步的研究。

2015年和2016年,我们开发了一种更好的深度学习算法,它可以直接用来预测蛋白质的三维结构。

那什么是深度学习?它其实是模拟大脑神经元的工作方式来进行预测,好处在于不需要告诉计算机怎么一步步去做,只用给计算机输入和输出。也就是说,我们只要给计算机氨基酸序列,告诉计算机它们对应的一些真实结构或者实验结构,就可以教计算机自主学会预测蛋白质的结构。

我们当时的方法叫“深度卷积残差神经网络”。预测思路是,首先预测蛋白质里面两个氨基酸在空间中是靠得比较近还是离得比较远,再把它们的三维坐标重构出来。2016年暑假,我们发现这个方法可以大幅度地提高蛋白质三维结构预测精度,在那年秋天写成一篇论文贴到网上去,引起了领域内很多人的关注。

这篇论文在2017年1月份正式发表,在2018年上半年拿到了国际计算生物学的旗舰期刊PLoSComputationalBiology的创新突破奖。

这是我们当时预测的一个有两百多个氨基酸的膜蛋白的结构,误差大概是2.29个埃,已经非常接近用实验技术解出来的结构的分辨率了。

2016年暑假,我们参加了全球蛋白质结构预测比赛(CASP)。虽然这时候我们还没有把方法完全实现好,但在测试中我们的算法已经是排名最好的,远远好于传统的统计方法。

2017年和2018年,我们进一步推广了这个算法,把之前预测“氨基酸靠得比较近还是离得比较远”推广到预测两个原子在空间中的距离。比如说,我们可以预测蛋白质里面两个原子在空间中的距离是5埃,还是6埃,7埃。根据预测出的距离,我们可以把三维坐标重构出来。后来我们把这个想法写成一篇论文,发表在2019年《美国国家科学院院刊》上面。

我们2016年和2018年的算法都需要利用蛋白质的共进化信息。什么叫共进化信息?假如两个氨基酸在空间中靠得比较近,那么在进化过程中,它们就可能会同时进化,这种现象就叫共进化。但现实中,有些情况下蛋白质是没有共进化信息的,一种是人工设计的蛋白,它不是自然界存在的,也就没有共进化信息;另外一种情况就是蛋白质复合物,如果我们想预测两个蛋白质在空间中怎么结合,很多情况下是得不到两个蛋白质之间的共进化信息。所以我们需要能够在不使用共进化信息的情况下去预测蛋白质结构。

所以,2019年和2020年,我又进一步去发展了我们这个方法,实现了不使用共进化信息去做蛋白质结构预测,预测结果跟实验测出来的结构非常吻合。

2020年,DeepMind继承了我们的方法,开发了新一代的深度学习方法。那一年有很多人知道人工智能已经颠覆了蛋白质结构预测,这种颠覆带来的改变非常大,特别是改变了分子生物学家做研究的范式——以前分子生物学家研究一个蛋白质,都是基于氨基酸序列去研究蛋白质的功能,但现在我们有了精确的结构预测,分子学家可以直接基于预测出的结构去研究蛋白质的功能。

在2020年,人工智能预测蛋白质结构入选了《科学》杂志评出来的“十大科学突破”;到2021年又被《科学》杂志评为“十大科学突破之首”;在今年被《麻省理工科技评论》评为“十大突破性技术”。

自从人工智能在预测蛋白质获得突破之后,国内也有很多组去研究这个问题,但很多是在重复实现已有的人工智能算法——当然这些工作需要我们去做,但这并不是最好的途径,因为这个领域内还有非常多的问题没有解决。

比如说,我们能不能预测蛋白质跟其他分子的相互作用,这跟蛋白质的功能预测、跟制药息息相关,因为蛋白质在细胞里面执行功能是通过跟其他分子结合在一起去实现的,所以这是一个非常重要的问题。另外,我想这几年大家对抗体已经比较熟悉了。当设计出一个抗体之后,我们可以预测这个抗体跟抗原到底怎么结合,通过这种方式我们可以去估计这个抗体到底有多好。最后,我们也可以用人工智能去设计自然界不存在的蛋白,这些蛋白可以用来制药,也可以用在工业生产上,比如我们可以设计一些新的酶来提高工业催化的效率。

谢谢大家。

演讲嘉宾许锦波:《AI预测蛋白质结构,但这只是一个开始》|拍摄:Vphoto

作者:许锦波

监制&策划:吴欧

编辑:阿藜尹宁流

校对&排版:尹宁流

AlphaFold、人工智能(AI)和蛋白变构

AlphaFold闯入了我们的生活。一种强大的算法,强调了生物序列数据和人工智能(AI))的力量。AlphaFold有附加的项目和研究方向。一直在创建的数据库承诺了无数的应用程序,这些应用程序具有巨大的潜在影响,但仍然难以推测。人工智能方法可以彻底改变个性化治疗并带来更明智的临床试验。他们承诺在重塑和改进药物发现策略、选择和优先考虑药物靶点组合方面取得巨大飞跃。研究人员简要概述了结构生物学中的人工智能,包括分子动力学模拟和预测微生物群与人类蛋白质之间的相互作用。研究人员强调了由深度学习驱动的AlphaFold在蛋白质结构预测方面所取得的进步及其对生命科学的强大影响。

同时,AlphaFold并没有解决长达数十年的蛋白质折叠挑战,也没有识别折叠途径。AlphaFold提供的模型没有捕捉到像折叠和变构这样的构象机制,而这些机制植根于系综中,并由其动态分布控制。变构和信号是群体的特性。AlphaFold也不会生成本质上无序的蛋白质和区域的系综,而是通过它们的低结构概率来描述它们。由于AlphaFold生成单级结构,而不是构象系综,它无法阐明变构激活驱动热点突变或变构耐药的机制。然而,通过捕获关键特征,深度学习技术可以使用单一预测构象作为生成多样化系综的基础。

编译|王建民

背景

AlphaFold克服了长达数年的瓶颈,有力地展示了人工智(AI)在生物研究中的力量。AlphaFold结合了许多深度学习的创新,以实验规模的分辨率或接近实验规模的分辨率预测蛋白质的三维结构,激发了社会各界对功能、进化和疾病研究的重新思考。快速生成的精确结构的庞大数量表明,新的、雄心勃勃的、推动前沿的研究将会出现。它也指出了应该重新考虑的研究项目。数据库中正在汇编的丰富的高质量数据已经加强了需要蛋白质结构的研究,如绘制信号通路中的结合点和相互作用,以及识别热点,包括潜在的和罕见的癌症驱动突变。 

最深远的影响可能是加速和改善新药的研发,以及产生可用于这一重要目标的数据。人工智能的发展和应用可能会进一步帮助预测向下游传播的信号是否足够强大,以达到其基因组目标来激活(抑制)基因表达,并预测路径。总的来说,这些强大的方法和它们所创建的数据库改造和改变了涉及使用结构的传统和正在进行的研究。它们也使研究人员更有勇气退后一步,重新思考和创新我们的项目。 

AlphaFold的成就得益于蛋白质数据库(PDB),目前其规模已接近20万个实验确定的结构。它对PDB中的蛋白质序列进行了训练,并使用输入序列查询蛋白质序列的数据库来构建多序列比对。然而,它惊人的成功并没有使研究人员对蛋白质序列究竟是如何折叠的有更深入的机理理解,因此没有从序列上协助蛋白质的折叠。研究人员注意到AlphaFold预测蛋白质序列的单级结构的AlphaFold无法直接解决基于整体构象状态种群的变构机制。变构即信号随着种群的变化而动态传播,是调节和细胞寿命的基础。由于靶向非保守变构位点具有更高的特异性和更低的毒性,变构也越来越多地出现在变构药物中。 

那么能否预见AlphaFold有助于揭示变构热点突变和变构药物发现的机制?AlphaFold预测的刚性结构可以提交给生成此类系综的MD模拟。同时,正如研究人员在此讨论的那样,其他基于AI的策略可以直接协助此类工作,最有效的是通过加速和增强MD模拟。也可能会继续努力利用人工智能预测变构结合位点。尽管如此,有必要回想一下,变构位点的有效性取决于该位点的稳定相互作用和有效变构信号的启动,这将更具挑战性。当前预测变构结合位点的方法仅针对前者。从这个意义上说,它们类似于正构位点的表征,只是它们的评分是基于变构位点的统计数据。

正构药物阻断活性部位;变构药物通过与远处的位点结合来改变蛋白质的活性状态,包括活性位点。AlphaFold无法处理蛋白状态的整体变化。人工智能策略可以,但需要超越对稳定交互的预测。预测内在无序蛋白质(IDP))和区域(IDR)的结构是AlphFold不足的另一个问题。无序蛋白质(区域)的特征是广泛且异质的整体,其中相对构象稳定性的差异很小,甚至很小,并且障碍很低。构象相互转换,导致AlphaFold可靠地捕获那些最受青睐的或构象分布的概率较低。然而,对构象的利用、学习和挖掘可以利用AI。以人工智能为动力的算法,被输入庞大的数据,并由新兴的大规模计算能力促成,正在推动计算生物学的革命(。与量子计算不同,在人工智能和数据驱动的计算方面,必要规模的技术创新已经在手。

蛋白折叠与蛋白结构预测

蛋白质折叠

蛋白质折叠包含两个问题:第一,蛋白质的氨基酸序列如何决定其3D原子结构的概念性问题;第二,如何从单一的氨基酸序列出发,成功地预测三维结构,而不使用与其他可用的(同源、同族)序列或任何相关序列结构有关的信息。这种计算预测方法的指导思想是:这就是蛋白质在自然界的折叠方式。溶液中基于单一序列的预测考虑了与氢键、离子对、范德华作用力以及主要由水介导的疏水相互作用有关的力,而疏水效应是蛋白质折叠的驱动力。这个正式的折叠问题出现在六十年前,同时出现的还有第一个原子分辨率的蛋白质结构。该结构导致了热力学问题,即决定蛋白质结构的原子间力的平衡,蛋白质如何能够快速折叠,也就是路径动力学,以及蛋白质结构预测的计算问题。 

ChristianAnfinsen和他的同事提出的具有里程碑意义的热力学假说指出,蛋白质的原生结构是其热力学上最稳定的结构,它只由其氨基酸序列和所处的条件决定,动力学不起作用。没有其他的考虑因素,也就是说,它是在实验室里合成的,还是在核糖体上合成的,还是经历了伴侣的辅助折叠。折叠范式规定,未折叠的分子将总是自发地折叠成相同的形状;也就是说,线性氨基酸序列指定了一个蛋白质的折叠原生状态。ChristianAnfinsen的热力学假说强调能量景观的形状,其中原生状态是自由能最低的状态。在计算上,这种描述提出了预测蛋白质结构的问题,形成了主导该领域数十载的方法的基础。如果只有序列是重要的,再加上物理化学力,那么"好的"算法就应该有可能折叠它。假设晶体结构代表最小能量状态,那么预测结构的"好坏"就可以通过与它的比较来评估。 

Anfinsen的描述结合了备选构象的采样、按能量排序和识别最低能量状态。随后的努力集中在二级结构的预测上,尽管疏水相互作用的主导作用表明二级结构是三维结构及其原因的结果。与变性状态相比,原生结构的稳定性差异很小(5–10kcal/mol),这使预测方法所面临的挑战更加复杂。

很早以前,CyrusLevinthal就将蛋白质和预测算法面临的关键问题概念化:在生物条件下,蛋白质搜索折叠空间并达到其最稳定的原生状态的巨大时间尺度。对于预测算法的采样骨干状态,搜索空间大小随着链的长度呈指数级增长,成为一种不可能。

Levinthal认为,没有必要搜索这个巨大的空间,因为能量景观是漏斗状的,而不是平坦的,因此可以引导采样走向生物构象盆地。封装的疏水核心优化了它们的vdW相互作用,限制了扭转角,并取消了内部"洞",氢键和盐桥平衡了与水的相互作用的损失。HaroldScheraga采用物理化学的方法,率先研究破解氨基酸序列如何影响蛋白质的三维折叠途径、热力学和生物活性。无论是AlphaFold还是其他广泛的蛋白质结构预测算法都没有考虑折叠途径。物理化学是隐含的;在AlphaFold的情况下,是通过人工智能来计算的。

蛋白结构预测

蛋白质结构的预测可以是基于模板的,也可以是无模板的,后者不使用与实验结构的整体相似性。无模板建模利用了基于物理学的能量函数。两者都可以利用机器学习和人工智能来使用PDB中的数据。基于模板的建模选择一个结构模板并使用序列比对。无模板建模使用构象采样和排序。它可以从相关序列的多序列比对开始,以预测局部结构特征,这将指导三维建模,然后再进行细化和排序。综合性的建模方法,从单个组件组装结构,可能遭受高假阳性率。计算综合方法可以结合实验方法、生物信息学、物理学和统计学的数据,快速准确地确定蛋白质复合体的结构。

该算法可以整合实验数据以及已知结构的统计分析。AlphaFold的显著成功不仅对所有的PDB结构进行训练,也对其预测的结构进行训练,它使用结构和相关数据来预测有接触的氨基酸对以及所有氨基酸对的距离。它还确保了氨基酸之间的距离满足三角形不等式,节省了中间步骤的时间。到目前为止,AlphaFold照亮了一半的黑暗人类蛋白质。然而,问题仍然存在,例如一个特定的蛋白质存在哪些结构状态,以及每个状态的数量是多少。解决这些问题对于将蛋白质结构与功能联系起来至关重要。这正是AlphaFold的不足之处。

然而,它所产生的模型可以作为生成系综的输入,例如通过MD模拟,如果在足够长的时间范围内并行进行,它应该能够产生这种系综体。

结构-功能范式忽略了系综和动态能量景观

序列-结构-功能教条是一代人的试金石。它主导了分子生物学几十年。它是由物理化学家提出的,他们解释说,生物大分子在折叠的时候会发挥作用。因此,要了解分子的功能,就需要考虑它们的三维结构,这种变革性的范式成为现代生物学的一个原则。今天,人们普遍认识到,僵硬的分子不能发挥功能,从而使人们认识到,为了维持生命,分子的灵活性是一种必要。然而,这还没有完全转化为对能量景观这一强大概念的理解。也就是说,生物大分子是动态物体,总是在各种具有不同能量的结构之间相互转换,这就是变构机制的起源。

这种作为构象间相互转换的柔性概念对于理解生物过程及其调控至关重要,如蛋白质的激活是系综体从非活性状态向活性状态的转变,变构药物如何发挥作用,细胞信号传递,以及通过构象选择而非诱导契合的结合机制。从经典的结构-功能范式到生物分子功能和变构机制的动态能量景观的概念演变,对AlphaFold的强大预测能力提出了挑战。为了理解生物调控,应通过蛋白质组合的种群和相对能量将结构与功能联系起来,这也是变构的基础。尽管AlphaFold的预测具有变革性的力量和巨大的广泛影响,但它无法直接解决这个问题。 

 

围绕它们的原生状态,蛋白质景观由快速转换的构象组成。这些组合是"模糊的"。与它们的环境和功能相关的事件,如pH值的变化,与离子、水和脂质的相互作用,以及小分子或大分子的结合,促进了构象的变化。这些变化被其局部受限的分子环境所阻挠。适应性强的结构变化会使系综体发生变化。转移后的、现在被填充的状态受到其当前邻近残基构象的阻挠。结合和催化包括在相互作用部位建立和破坏共价和非共价相互作用。这些相互作用通过折叠传播,影响了系综体的构象状态。系综中的转变改变了相对稳定性,即状态的种群,从而影响了变构转换。生物大分子必须被统计描述,而不是静态地描述。静态描述是几十年来的规范。然而,静态描述不能捕捉功能。它不能描述蛋白质在某些激活事件中从非活性状态激活到活性状态。它也无法描述与激活剂的高亲和力结合是如何将蛋白分子转移到其活性状态的。当试图变构"拯救突变"是如何工作的,变构药物是如何阻断活性位点的,以及如何克服对抗它们的突变时,它将进一步失败。

如果蛋白质以单一结构存在,或者只在活性和非活性两种状态之间翻转,那么在细胞中发生的所有这些过程都是不可能的。虽然有一个单一的构象是活性酶应该采取的生产性催化,但有多种方法可以使其失活,因此有许多非活性状态。单一结构的概念孕育了"锁钥式"结合机制的概念。这种观点被"诱导配合"机制所取代,后者认为只存在两种状态,即活性和非活性状态。在诱导契合的情况下,配体与单一的"开放"蛋白质结构结合,蛋白质与刚性结合伙伴之间的相互作用诱导了蛋白质的构象变化。相反,构象选择机制的理论是,能量表面承载了非常多的构象,而最适合的构象被选择出来,随后的小规模诱导拟合优化,主要是通过侧链。AlphaFold利用人工智能从序列中对蛋白质结构进行无模板预测,为生物学家提供具有良好分辨率的结构。

它所产生的预测,就像那些通过同源模型获得的预测一样,是刚性的。柔性隐含地体现在某些区域没有预测结构或预测结构的置信度很低,如内在无序蛋白质的情况。因此,曾经被置于生物学边缘的计算方法,现在正处于最前沿,推动着"第二次分子生物学革命"。AlphaFold可以推动生命科学的基本问题的突破,包括精准医疗,有望改变研究和加速药物发现。它是由深度学习的创新所驱动的,这些创新似乎已经准备好改变医学模拟。

人工智能和机器语言的应用

模拟中的人工智能和机器语言

用于分子模拟的机器学习──工具、策略和原理──最近已被回顾。机器学习已经对复杂原子系统的近似方法的发展产生了重大影响。在发展和整合MD模拟与深度学习方面的创新可以重现、解释、预测和产生与生物大分子行为有关的数据。深度学习方法可以帮助MD模拟在效率和规模上更胜一筹,人工智能在深度学习技术和模拟之间架起桥梁。实现广泛使用的挑战包括人工智能和MD的顺利连接以及工作流程的自动化。这些可以在MD模拟中普及新的深度学习工具,以有效地利用这两种强大的方法。这一领域的出版物数量激增,强调了人们对人工智能和机器学习在模拟中潜力的认识。深度学习也已经在结构建模和设计、分析以及将这些与功能联系起来方面得到了利用。

人工智能和机器语言在预测病原体-人类宿主PPI中的应用

人工智能和深度学习也正在被开发并应用于大分子结构的实验测定和预测,以及PPI。人工智能方法在人类-微生物组蛋白质-蛋白质相互作用中的应用。这些相互作用在人类健康和疾病中发挥着重要作用。关于微生物、细菌和病毒影响人类健康的数据正在迅速增加。它们可以通过与人类蛋白质的相互作用来调节人类的信号和免疫反应。为了破译这种调控,重要的是确定具体的相互作用、参与的人类宿主蛋白以及复合物的结构。对相互作用的识别及其结构细节的原子分辨率允许理解参与病原体生存的机制并协助针对这些相互作用的药物发现。这些相互作用帮助病原体躲避和绕过免疫防御,病原体劫持了宿主的信号传递。从机制上讲,病原体蛋白质可以有类似于宿主的表面,使它们能够模仿并与宿主蛋白质的相互作用竞争。它们与宿主蛋白结合,并重新调整其生理信号传导。包括结构细节在内的数据非常少,大规模的实验检测具有挑战性。因此,高效和强大的计算策略来预测相互作用是至关重要的。大规模的应用中,AlphaFold现在可以被用来实现这一目标。机器学习既允许大规模的高效和通用的应用,又能解决机器学习算法所能破译的这种关系的复杂动态。 

 

机器学习在PPI预测方面的挑战与数据和方法都有关。由于微生物的数据有限,而不是人类的数据,微生物的样本量很小。在基于序列的算法中,维度问题会很明显,随着特征大小的增加,难度会呈指数级增长。主成分分析(PCA)、统一流形近似和投影(UMAP)或自动编码器可用于将样本嵌入到低维空间,预处理和后处理管线可用于其他数据。在基于结构的方法中,问题可能与表征的数量和多样性有关。与具有三维结构的宿主-微生物PPI有关的数据是稀少的,因此在训练和评估计算方法方面面临着问题。其他问题包括缺乏黄金标准测试数据集。评估指标也不明确,PPI网络是稀疏等等。DeepMind的AlphaFold2在基于序列的蛋白质结构预测方面的成功,以及RoseTTAFold的开源对应物,以及公开的所有人类蛋白质的AlphaFold2预测,都是有利于科学界的重大举措。

结论

人工智能和机器学习是附加的项目。它们被应用于不同的应用,包括生物网络。它们影响着疾病生物学、药物发现、微生物组研究和合成生物学。他们还发展了一个机器学习管线,用于蛋白质相互作用网络中的分子复合体检测,以及癌症生存中主要信号通路的相关性。这里,研究人员通过一些例子简要介绍了AlphaFold的巨大影响,以及人工智能在结构生物学中的巨大影响。作者强调了AlphaFold能够和不能完成的任务以及原因。变构机制属于后一种类型。然而,通过对AlphaFold产生的模型进行MD模拟,这一目标也可以实现。即使模拟可以解决这个动力学问题,但在这样的规模下,成本还是过高。需要一种转变模式的机器学习方法来建立蛋白质动力学模型。AlphaFold及其背后的深度学习创新为蛋白质科学开辟了下一个前沿领域,包括精准医疗。蛋白质结构与细胞生物学、化学、生物物理学和医学相关。迄今为止,PDB数据库中已有超过18万个蛋白质结构,向全世界所有研究人员开放。然而,病原体的结构并不在其中,许多其他的结构也不在其中,而这些结构对人类健康至关重要。现在资源已经在那里了,随着计算能力的不断提高,这些资源最终也会在那里。尽管如此,这些结构的可用性是不够的。对于这些生物物理学家来说,关键是要问什么重要的问题。研究重点应该是什么,这样就不会重复已经完成的工作,而是利用新的能力来提出真正重要的问题。

参考资料

Nussinov,R.,Zhang,M.,Liu,Y.andJang,H.,2022.AlphaFold,ArtificialIntelligence(AI),andAllostery.TheJournalofPhysicalChemistryB.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇