颜宁等点评:AI精准预测蛋白质结构,结构生物学何去何从
以下文章来源于返朴,作者颜宁、张阳等
返朴
溯源守拙·问学求新
12月1日,谷歌旗下的DeepMind公司宣布,其新一代AlphaFold人工智能系统在国际蛋白质结构预测竞赛(CASP)上击败了其余的参会选手,精确预测了蛋白质的三维结构,准确性可与冷冻电子显微镜(cryo-EM)、核磁共振或X射线晶体学等实验技术相媲美。(详见《》)这一消息引发了全球媒体关注,前Genentech首席执行官ArthurD.Levinson博士盛赞这一成就是“划时代的进步”。人工智能的“进击”对生物学,对其他学科会有什么影响?网络上有人提出:AI都能解蛋白质结构了,结构生物学家是不是该失业了?《返朴》总编、结构生物学家颜宁特邀几位同仁对这一新闻各抒己见,回答大家的疑问。
撰文|龚海鹏、龚新奇、李赛、王宏伟、颜宁、张鹏、张阳、周强
byAsierSanz|https://asiersanz.com/
AlphaFold2是个大突破
但我们还有努力的方向
张阳
(ITASSER创造者,美国密歇根大学教授)
AlphaFold2显然是蛋白质结构预测领域的重大突破。这可能是从1969年第一篇JournalofMolecularBiology用比较建模方法预测蛋白质结构发表51年以来最大的突破。这个领域过去20年来,进展一直比较缓慢,但最近几年,随着共同进化、接触图预测以及引入深度学习之后,很多软件,比如I-TASSER和Rosetta等,都有了很大进步。就I-TASSER来讲,两年前在第13届CASP(CASP13)时,它能够正确预测的非同源蛋白数目比其六年前在CASP11上提高了5倍。这次CASP14也比CASP13的预测能力提高了很多。但AlphaFold2这次比上次进步更大,和两年前的上一个版本相比,AlphaFold2的主要变化是直接训练蛋白质结构的原子坐标,而不是用以往常用的、简化了的原子间距或者接触图。传统上,蛋白质结构预测可以分成基于模板和从头预测,但是AlphaFold2只用同一种方法——机器学习,对几乎所有的蛋白质都预测出了正确的拓扑学的结构,其中有大约2/3的蛋白质预测精度达到了结构生物学实验的测量精度。这说明,至少是在单结构域的蛋白结构,他们接近解决了这个问题。
谷歌这次为什么能够取得如此大的成功?这首先与它们拥有强大的人力和计算资源有关。计算机上,他们使用TPU(据他们的宣传是比GPU快15倍),学术界的实验室只有CPU或者GPU,而很多实验室都还没有GPU。他们对媒体宣传中说Alphafold2最后只用相当于100个GPU的资源训练了两周就产生了最后的模型,学界大多数实验室都可以做到,这是不客观的。因为产生一个新的想法,到训练成功的模型,中间起码要反复测试重复100次甚至1000次。这就像吃了十个馒头的饿汉一样,不能说吃了最后一个馒头吃饱了,就觉得只吃最后一个馒头就够了。另外,他们可以高薪招聘大量专业人才,集中精力攻关一件事,不需要担心基金申请、教学和学生毕业论文等等。这些人力和计算资源上的差别是谷歌DeepMind这样的工业研究机构比起学术界在攻关科学或者工程问题上的最大优势。当然,学术界在蛋白质结构预测这么多年的积累,也给AlphaFold2的成功奠定了基础。
我自己很高兴他们取得了这么大突破。这个工作首先证明了蛋白质结构预测问题是可以被解决的。这其实不是一个简单的问题,因为蛋白质结构和序列的复杂关系,常常让人们——特别是做结构预测的人——怀疑,蛋白质折叠这个问题是不是可解,或者有没有唯一解。我们在15年前的一篇PNAS论文中提到,用PDB库中的模板,在理论上可以解决“单结构域蛋白质结构预测”这个问题,但那是一个基于模板的传统解法,难点是如何找到最好的模板。谷歌他们这次用“暴力”的机器学习,“暴力”地解决了这个问题。这个做法的成功会对很多相关领域都产生深远影响。有人说这个AlphaFold2会让很多相关行业的人失业。我认为恰恰相反,它给很多领域提供了解决问题的新途径和新思维,因而会极大推动相关领域的发展,因此会产生更多更大的机会。即便是在蛋白质结构预测这个相对较小的领域,我们还有很多事情要做。AlphaFold2这次只有2/3的蛋白预测做到实验精度,还有1/3做不到,是否还有更快更好的途径来产生更高精度结构的算法?基于商业或其它考虑,我相信谷歌可能不会公开代码或Server。所以,最终可能还得学术界的同行共同努力,完善和推广这一技术,让其真正惠及生物医学研究以及普通公众的健康需求。
共赢大于竞争
龚新奇
(中国人民大学数学科学研究院教授,清华大学北京结构生物学高精尖中心合作研究员)
2020年第14届国际蛋白质结构预测竞赛(CASP14)共有84个常规(Regular)题目,其中有14个题目因为生物实验没给出确定结构等原因被取消或延缓,其他70个题目的单体和复合物蛋白质所含有的氨基酸个数从73到2180不等。
19个国家的215个小组参加了CASP14。最终,谷歌旗下DeepMind公司的人工智能系统AlphaFold2在2018年的Alphafold基础上迭代创新,超常发挥,一枝独秀,基本解决了“从氨基酸序列预测蛋白质结构”这个困扰人类50年的生物学第二遗传密码问题。
AlphaFold2的成功表现在三个方面:
不少结构的预测精确度跟实验晶体结构相当,可以替代晶体结构;
一些含有多个结构域的复杂超长的单链结构也达到了可以跟实验结构比较的程度;
帮助解析了竞赛中涉及到的、实验多年没拿到的X射线晶体和cryo-EM冷冻电镜结构,比如T1058的膜蛋白是用了Alphafold2的预测模型之后,才跟原有晶体学数据综合成功解析了结构。
AlphaFold2团队的JohnJumper报告表明,他们使用了基于注意机制的神经网络,动态调整网络中节点的顺序和链接;依靠的是端到端的优化整体构建结构,而不是氨基酸距离;网络中内置了大量的序列、结构和宏基因组等多重比较信息;还依赖分子模拟软件优化去掉了原子的堆积碰撞。
在AlphaFold2的摘要作者名单里,交叉团队的30位作者中有19位都被标记为相同贡献的第一作者。他们将近8分钟的宣介视频,记录了团队成员在新冠疫情期间精诚合作、攻坚克难的宝贵场景。
CASP组织者JohnMoult指出,计算下一步还有更困难的问题要解决:超大复合物结构、动态构象变化、蛋白质设计、药物设计等等。
除了我们蛋白质结构预测小同行对AlphaFold2的成功很欣喜之外,社会上还有多个不同方向的学术界、产业界和新闻界对它寄予了厚望。
在欣喜的同时,蛋白质结构预测小同行也有一些保留意见:
工程化明显,依赖于强大的GPU计算资源和代码优化团队;
谷歌公司几乎可以收集全球所有网络信息,虽然看起来AlphaFold2的自动化程度很高,但他们在人工操作中使用了哪些信息值得关注;
预测对了结构,但不等于明白了蛋白质折叠过程和原理。
生物实验科学家也有不少看法:
算出结构只是生物学规律发现的第一步;
计算的多个models中,有时打分排序不准;
开放AlphaFold2的server之后,使用效果不一定那么好;
只是在已有蛋白质结构数据集上训练得到的模型,尚不能计算其它构象或其它类别的分子结构。
还有关心这个领域的其他方向的专家也提出了问题:怎么理解这个算法成功的原理?怎么跟原有的热力学、物理学等基本原理相融相通?
我认为AlphaFold2是个大突破,后续可能性很多,会替代一些简单的结构生物学实验,但对当下科学家追求的前沿生物学来说,共赢大于竞争;对生物学、数学和计算机学等学科而言,则会带来新的机遇。
技术服务于科学探索
结构生物学早就进入新时代
颜宁
(美国普林斯顿大学雪莉·蒂尔曼终身讲席教授,美国科学院外籍院士)
首先,简单说一下,什么是生物学里的“结构”。用个不太恰当的类比:变形金刚。比如擎天柱是辆车还是个机器人,这就是不同的结构了,机器人能打架大车做运输,功能也不一样。而不同的汽车人组成成分可能差不多,都有合金、玻璃、橡胶,但是形态各异,特长也不一样。生物分子的组成成分和基本单元就那么几种,但是组装起来,不同的序列不同的结构,于是功能各异、五花八门。这个结构不是静止的,每一个生物大分子基本都像个小机器,比变形金刚更复杂、更变化多端。
因为结构决定了生物大分子的功能,所以解析高分辨率结构在过去几十年一直是理解生物大分子工作机理最有力的工具。但是一直以来,因为技术局限,对于绝大多数生物大分子的结构解析困难重重。所以,一批科学家另辟蹊径,试图在已有的知识基础上,绕开劳心劳力又劳财的实验步骤,从蛋白质的序列直接通过计算预测出它们精准的三维结构。
蛋白结构预测并不是一个新鲜学科,一直以来就是结构生物学的一个分支,很多科学家不断开发算法,希望根据序列预测出来的结构越来越准确。这个领域在过去十几年进步迅速,并且与实验结构生物学融合度越来越高。比如,自从进入电镜时代,看到一堆黑白灰的密度,如果其中某些部分没有同源结构,通过软件预测一个大致的结构模型,放到密度图里面做框架,再根据实验数据调整,已经是个常规操作。
这次人工智能赢得CASP的新闻亮点有两个,一是AI,二是准确度高。这确实是突破,但是有了两年前的新闻(注:2018年,DeepMind开发的第一代AlphaFold首次参加CASP并且拔得头筹)做铺垫,现在这次委实是意料之中。
至于衍生出来的所谓“结构生物学家都要失业了”的调侃——如果你对结构生物学的理解还停留在20年前,那这么说也不是不行。但是结构生物学自身一直在发展着,一场冷冻电镜的分辨率革命更是令结构生物学不同往日了。我在2015年主持一个学术研讨会的时候曾经评论过:结构生物学的主语是生物学,是理解生命、是做出生物学发现。但是,在X-射线晶体学为主要手段的时代,获得大多数研究对象的结构本身太难了,于是很多研究者把“获得结构”本身作为了目标,让外行误以为结构生物学就是解结构。但我从进入这个领域之初,就被教育得明明白白:结构本身只是手段,它们是为了回答问题、做出发现。而电镜使得“发现”二字尤为突出。
看到结构本身、知道你的研究对象长啥样,倒也可以称之为发现,但我刚刚说的“发现”,特指那些超乎想象的、通过结构才揭示出来的、自然界里神奇的存在或者令人叹为观止的机理。我讲课最喜欢举的例子之一就是施一公组的剪接体结构。为啥呢?因为它集合了结构生物学发现里几乎所有的精彩要素和挑战。
第一,在剪接体结构出来之前,有很多剪接体的组分甚至是未知的。不同于传统的结构生物学,先知道你要研究对象是啥,再吭哧吭哧地去把它们的结构解出来——剪接体的电镜分析是看到了密度图之后,完全不晓得这是啥,需要通过质谱等手段去鉴定组分。我从2015年就预测:电镜与质谱组合,将会变成一个重要的生物学研究发现手段。在电镜时代,这样的例子越来越多。比如清华大学隋森芳老师组的那个巨大的藻胆体结构,靠质谱都不够了。为了搞明白组分,他们甚至先做了基因组测序。
第二,几十上百个蛋白如何众星捧月地把那么几条貌似简单的RNA掰成与几个小小的金属离子配合的核酶反应中心,在茫茫碱基中,在正确的时间正确的地点牵线搭桥,剪掉intron(内含子),连接exon(外显子)?就为了这一“剪子”一“钩针”,为了几毫秒的过程,这么个庞然大物的几十上百个组成部件却要分分合合,这个过程是真神奇。
施一公实验室报道的首个酵母剪接体的结构
(图源:生物化学经典教材LehningerPrinciplesofBiochemistry(第七版)封面)
结构生物学目前的实验手段只能获得静止的3D照片,为了揭示这部电影,就要不断获得中间态的3D照片,帧数越多,电影越精准。但即便如此,这个过程中的动力学问题,简单说,就是变化速度,依旧不是现在的结构生物学实验手段可以揭示的,需要借助更多生物物理技术、计算生物学手段去探索。
我自己的工作虽然没有剪接体那么酷炫,但是电压门控钠离子通道如何感受膜电势的变化,开门关门,就这么个过程,听着简单,我们死磕三年了,依旧束手无策。另外,我们今年发的两篇PNAS论文其实代表了结构生物学的另一个努力方向:在实验操作过程中对生物大分子施加外力(电场、磁场、各种长度的波......)。
也许是受到我自身专业领域的局限,AlphaFold迄今带给我的震撼还赶不上冷冻电镜的革命,后者将我们从技术挣扎中解放出来,可以专注于结构带来的生物学发现本身。
AlphaFold目前最成功的预测是针对单链分子,当然将来预测复合物的高精结构也应该不在话下。相比于对蛋白折叠的贡献,我倒是更希望AI能够助力MolecularDynamicsSimulation(分子动力学模拟)。对结构生物学而言,这个领域才是亟需进步的。
我个人认为生命是地球上最神奇的存在,那么多未知要探索,任何一次技术进步都是契机。该考虑的是如何把新技术为我所用,去问出、去探索更有意思的问题。
最后,当AI能够成功预测我们正在孜孜以求的生物大分子动态、原位高分辨率结构的时候,那失业的一定不止是结构生物学家、或者生物学家了:p
各抒己见
根据现在披露的结果,AlphaFold2已经基本达到实验解析结构的精度。前天AlphaFold2团队的报告展示了新冠病毒SARS-COV-2的预测结果,说明RNA聚合酶这么大的蛋白也能基本预测准确。理论上,这会对结构生物学有很大冲击,尤其是以后单颗粒cryo-EM的实验方法上,是否还需要把分辨率做得那么高?低分辨率的电子密度图,甚至SAXS数据结合预测结果应该就能解决问题了。
但是,现实中的冲击不会那么大。这是因为,AlphaFold2模型的创新性非常高,其中结合的2Dtransformer和3Dequivarianttransformer都是AI领域的前沿技术,模型的训练难度很大。DeepMind的训练方法在学术界很难复现,估计学术界要花几年的时间才能跟上,因此短期内AlphaFold2对结构生物学的影响会比较有限。DeepMind可能会和个别实验室合作,预测蛋白质结构。
--龚海鹏(计算生物学家,清华大学结构生物学高精尖创新中心研究员)
AlphaFold为结构生物学家提供了除晶体学、冷冻电镜、NMR以外的另外一种手段,用于揭示生物大分子发挥作用的分子机制。
--张鹏(结构生物学家,主要利用晶体学和冷冻电镜技术;中科院分子植物科学卓越创新中心研究员)
AlphaFold目前还不能预测复杂的分子机器,主要是因为蛋白-蛋白相互作用非常复杂,存在极多的可能性。实验手段所揭示出来的蛋白-蛋白相互作用方式还只是冰山一角,更何况在不同生理条件和过程中的结构变化。因此,未来对有特定功能的、多个成分组成的、生物大分子复合体的结构解析,以及体内的结构分析,将成为结构生物学实验研究的主要内容。无论有没有AlphaFold,结构生物学也正在朝这个方向发展。
Rosetta(注:从头蛋白结构建模算法)也好,AI也罢,结构预测都是基于已有的实验数据够大。没有足够的数据积累,这些基于统计和数据库的预测就无法实现。完全基于物理学和化学第一性原理的结构预测还没有出现。
实验科学永远是探索未知的必要手段。新的软件算法应该是成为实验科学家的更有力工具,而不是取代实验科学。
--王宏伟(cryo-EM专家,清华大学结构生物学高精尖创新中心执行主任,清华大学生命科学学院院长)
最近两年,结构生物学领域经历了与围棋界类似的故事。AlphagoFan版本时围棋界并不认为它能够战胜人类顶尖高手,可是AlphagoLee后整个围棋界甘拜下风,并且转向AI拜师学艺。2018年Alphafold出现时,实验结构生物学领域认为被战胜的仅仅是传统的结构预测领域,2020年Alphafold2之后,实验结构生物学领域应该开始思考如何与之共存以及如何“拜师学艺”了。目前阶段人工智能在围棋上已经远远超过人类顶尖棋手,但是人类围棋比赛并未因此取消,如同汽车发明后奥林匹克仍然在进行田径比赛一样。原因之一是人工智能虽然超越了人类,但并未解决围棋的最终解。同样的道理,对于复杂的结构生物学问题,预测手段本身还不能号称完全解决了问题。实验结构生物学领域接下来需要做的一个事情是要拥抱变化,更好地与预测方法结合以及共同发展。
--周强(cryo-EM专家,西湖大学生命科学学院特聘研究员)
蛋白质体系越大,结构的解析越难仅依赖计算方法。Cryo-ET(冷冻电镜断层成像)技术擅长解析体外难表达的大分子机器结构、细胞中的原位蛋白结构等复杂体系,因此很难被脱离实验手段的方法取代。目前,由于体系过于复杂,使用分子动力学模拟整颗病毒尚未实现,要模拟细菌、细胞、组织,还要很长的路要走。
--李赛(Cryo-ET专家,清华大学结构生物学高精尖创新中心研究员)
本文转载自公众号“返朴”(fanpu2019)
中国生物物理学会官方订阅号,为BSC会员及生物物理领域专业人士服务。
投稿及授权请联系:bscoffice@bsc.org.cn。
微信号:BSC-1979
喜欢此内容的人还喜欢
原标题:《颜宁等点评:AI精准预测蛋白质结构,结构生物学何去何从?》
阅读原文
“阿尔法折叠”精准预测蛋白质三维结构
人工智能(AI)再度发威,攻克了生物学领域一项重大难题:预测蛋白质如何从线性氨基酸链卷曲成3D形状以执行任务。据美国《科学》杂志网站11月30日报道,“蛋白质结构预测关键评估”(CASP)竞赛传来喜讯:英国“深度学习”(DeepMind)称其AI实现了上述成就,他们的方法将极大加快新药研发进程。
人体拥有成千上万种不同的蛋白质,每一种蛋白质都包含几十到几百种氨基酸,这些氨基酸的顺序决定了它们之间的作用,赋予蛋白质复杂的三维形状,进而决定了蛋白质的功能。了解这些三维形状有助于研究人员设计出能在蛋白质缝隙内滞留的药物。此外,合成出拥有所需结构的蛋白质,还可以加快酶的研制进程,让生物燃料领域受益。
几十年来,研究人员利用X射线晶体学或低温电子显微镜(cryo-EM)等实验技术来破译蛋白质的三维结构,但这种方法可能需要数月甚至数年,且未必见效。目前,在生命体内发现的2亿多个蛋白质中,只有17万个蛋白质的结构被破解。
1994年,为更好预测和破解蛋白质三维结构,马里兰大学结构生物学家约翰・穆尔特等人发起了CASP竞赛,每两年举行一次。在今年的比赛中,“深度学习”团队的“阿尔法折叠”(AlphaFold)方法的中位分数为92.4(满分100分,90分以上被认为预测方法可与实验方法相媲美),预测最具挑战性的蛋白质的平均得分为87,比次优预测高出25分。它甚至擅长预测嵌入细胞膜的蛋白质结构――细胞膜是许多人类疾病的核心,但很难用X射线晶体学研究。
欧洲生物信息学研究所名誉主任珍妮特・桑顿说:“‘深度学习’团队所取得的成就是惊人的,将改变结构生物学和蛋白质研究的未来。”
穆尔特则表示,这是一个有50年历史的问题,“阿尔法折叠”改变了游戏规则,实验学家将能使用精确的结构预测来理解不透明的X射线和低温电磁数据;药物设计者也可借此迅速厘清新冠病毒等新冒出的危险病原体中每种蛋白质的结构,从而更快研制出相关药物。
总编辑圈点
蛋白质的形状决定了其功能。知道蛋白质如何折叠时,我们才能知晓蛋白质的作用。但光是解析蛋白质折叠后的结构,就已经非常困难。常用的方法是冷冻电镜、核磁共振或者X射线等。结构要看得精细,耗时长且成本不菲。预测蛋白质折叠后的形状,则是“地狱难度”。它可以在极短时间内把自己折叠成令人难以想象的形状,预测所需要的算力可谓惊人。在人工智能帮助下,曾经的天方夜谭成为事实。这或许是一项革命性成果,为人类探索药物分子世界提供了强大工具。(记者刘霞)
“阿尔法狗”转行预测蛋白质结构,交大教授建议布局AI+生物医药|新科普
美国《科学》杂志近日评选出了2020年十大科学突破,“人工智能首次精准预测蛋白质三维结构”榜上有名。上海交通大学生物医学工程学院特聘教授殷卫海认为,这一成果的科学原理并不新鲜,但确实是一个重大技术突破,有望大幅加快药物研发速度。上海可加强对“人工智能+生物医药”这个交叉领域的布局,抢占科技前沿制高点。
人工智能让蛋白质结构预测成为可能
蛋白质具有三维结构,由一系列氨基酸折叠而成。对科学家来说,氨基酸测序是比较容易完成的工作,蛋白质三维结构解析的难度却很大,耗时费力。1972年,美国科学家克里斯蒂安·安芬森因提出“蛋白质的高级空间结构由其氨基酸序列决定”而获得诺贝尔化学奖。那为什么测定氨基酸序列后,解析蛋白质三维结构仍非常困难呢?殷卫海解释说,氨基酸折叠成蛋白质的力学原理是很明确的,包括氢键、范德华力、疏水作用和离子键等相互作用,这些氨基酸折叠成的三维结构必定达到了力学最稳态。但问题在于,蛋白质中各个原子之间都有作用力,如果要根据最稳态原理预测出三维结构,必须通盘考虑上千万个乃至更多的作用力,计算量非常巨大。
长期以来,结构生物学家利用冷冻电子显微镜、X射线晶体学等技术观测并解析蛋白质三维结构。对一些重要蛋白质的结构解析成果,往往会在《细胞》《自然》《科学》等国际顶级科技期刊发表,因为这类科研成果与药物研发息息相关,只有绘制出人体内重要蛋白质的“三维地图”,才能据此找到药物作用于人体的靶点,从而研制出精准有效的新药。
无论是冷冻电子显微镜还是X射线晶体学技术,解析蛋白质三维结构的难度都很高,需要高水平科研团队耗时数月乃至数年才能完成。近年来,随着新一代人工智能技术兴起、“阿尔法狗”(AlphaGo)的问世,“根据氨基酸序列预测蛋白质结构”这一方法成了国际科技前沿热点。通过深度机器学习等技术,人工智能系统可以在几天至几个月内,完成传统计算机软件需要上百年甚至更长时间才能完成的计算量,较为精准地预测出蛋白质三维结构。
人工智能预测(蓝色)和实验测定(绿色)的蛋白质结构几乎完全吻合。来源:DeepMind
智能化药物设计可让中国“弯道超车”
去年11月30日,谷歌旗下DeepMind(深度思维)公司研发的AlphaFold(阿尔法折叠)人工智能系统,在国际蛋白质结构预测竞赛上获得冠军,其预测的蛋白质三维结构与实验方法解析的结构只有小幅差异,甚至让人怀疑差异是否源于实验结果不够精准。
“这种人工智能应用有望在新药研发中扮演重要角色,智能化药物设计可以提高效率、节省费用。”殷卫海说,比如科学家发现人体内某个蛋白质分子活性很强,会促进肿瘤生长。如何研制出针对这个分子的抑制剂?利用人工智能系统,科学家能够在很短时间内预测出它的三维结构,并在此基础上设计很多种药物分子结构,让它们进入新药研发的临床前实验阶段。
在他看来,“人工智能+生物医药”这个交叉领域很适合在上海发展,因为这是一个科技前沿制高点,人工智能和生物医药又属于上海重点发展的三大领域,上海在这两个领域拥有国内领先的科研力量和临床资源。“我国在新药研发方面长期落后于一些发达国家,随着智能化药物设计的兴起,我们有了弯道超车的机会。DeepMind目前处于国际领跑水平,我国相关部门可加强这方面的研发布局和投入,推动科研机构和企业向科技制高点进军。”
冰洲石生物科技研发的“轨道药物设计”平台来源:依图科技
值得关注的是,上海企业依图科技近日投资了人工智能药物研发公司——冰洲石生物科技(AccutarBio)。这家2015年成立的企业将深度神经网络用于药物化学性质预测,其自主研发的“轨道药物设计”平台,每天能进行数百万小分子的虚拟筛选。冰洲石生物科技首席执行官范捷博士介绍,用传统方法研发一款新药,平均耗费10亿美元、耗时10年。而利用“轨道药物设计”平台,公司近两年就获得了数个候选药物。这些靶向药物有望用于治疗多种癌症,其中针对乳腺癌和前列腺癌的药物在开发管线中推进最快,计划今年进入临床试验阶段。
预测蛋白质结构只是开始 AI或为生命科学领域带来巨变
视觉中国提供
过去半个多世纪,人类一共解析了5万多个人源蛋白质的结构,人类蛋白质组里大约17%的氨基酸已有结构信息,而AlphaFold2预测的结构将这一数字从17%提高到58%。它带来的在生命科学各分支领域的革命,将在今后几年到十几年中逐渐显现出来。蛋白质结构预测是生物学的重要“圣杯”,也是人工智能落子生命科学领域最炙手可热的研究之一。近日,我国自研深度学习蛋白质折叠预测平台TRFold传来好消息,其基于2020年第14届国际蛋白质结构预测竞赛(CASP14)蛋白质测试集的成绩仅次于“阿尔法折叠的迭代版”(AlphaFold2),排名全球第二,这是国内目前所有公开蛋白质结构预测模型中的最好成绩,我国计算生物学领域的表现跻身全球第一梯队。从2018年AlphaFold第一次代表人工智能“参战”,到AlphaFold2用机器学习方法取得媲美结构生物学实验的精测精度,计算生物学给蛋白质预测这一世纪难题带来了颠覆性的解法。人工智能会给生命科学领域带来怎样的巨变?蛋白质结构预测这个生物学里悬而未决的终极难题之一,会被人工智能彻底解决吗?深度学习可在计算生物学领域广泛应用蛋白质结构预测是生命科学领域一个由来已久、令人着迷的问题,同时又以难度大、成本高、进展有限著称。但这个人们本以为需要一个世纪慢慢探索的问题近年来却取得了重大突破:2020年CASP14竞赛中,谷歌公司旗下的DeepMind公司研发的AlphaFold2取得了总分(GDT)92.4/100的成绩,也就是说,计算生物学几乎获得了与实验室方法精确度相当的蛋白质结构预测结果。这个里程碑事件令结构生物学家们感慨,自己用价值1000万美元的电镜努力了好几年得出的结果,Alphafold2竟然一下就算出来了。“依我之见,这是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一。”生物物理学家、西湖大学校长施一公不吝赞美。为什么要预测蛋白质结构?天壤蛋白质折叠项目负责人苗洪江对科技日报记者解释,“研究蛋白质结构,有助于了解蛋白质的作用,理解蛋白质如何行使其生物功能,认识蛋白质与非蛋白质之间的相互作用,对于生物学、医学和药学等都非常重要”。传统观测蛋白质结构的方法主要有3种,即核磁共振、X射线、冷冻电镜,但这些方法往往依赖大量试错和昂贵的设备,每种结构的研究都要花费数年时间。而人工智能应用于蛋白质结构预测的最新成果,即AlphaFold2,能在几天甚至几分钟预测出以前要花费数十年才能得到的具有高置信度的蛋白质结构。“刚开始大家还在开玩笑,说Deepmind是不是通过什么方法盗取了真实实验结果,直到大家看到文章和开源代码才敢相信这件事情真的发生了。”苗洪江笑言,这侧面证明AlphaFold2预测结果之震撼,“这开启了人工智能在计算生物学广泛应用的大门,让整个领域的人看到了深度学习在这个领域可以广泛应用,这实打实的双盲实验结果就是证明。”AI预测结果和实验室水平相当1994年,美国科学家约翰·莫尔特(JohnMoult)发起国际蛋白质结构预测竞赛,每两年举办一届,竞赛的举办正是为了吸引计算机科学、生物物理学等不同领域的专家参与到蛋白质三维结构预测这一极具挑战性的生物信息学问题中来。2018年,人工智能正式参与蛋白质三维结构的预测,AlphaFold首次大显身手,在98名参赛队伍中排名第一。两年后,AlphaFold2带来真正的突破,它用机器学习方法对几乎所有的蛋白质都预测出了正确的结构,其中有大约2/3的蛋白质预测精度达到了结构生物学实验的测量精度。事实上,过去半个多世纪,人类一共解析了5万多个人源蛋白质的结构,人类蛋白质组里大约17%的氨基酸已有结构信息,而AlphaFold2预测的结构将这一数字从17%提高到58%,因为无固定结构的氨基酸比例很大,58%的结构预测已经接近极限了。它带来的在生命科学各分支领域的革命,将在今后几年到十几年中逐渐显现出来。施一公在接受媒体采访时曾谈到,人类蛋白质组里能够被预测的以单个蛋白为单位的空间三维结构,已经基本都被AlphaFold2预测了。总体而言,预测结果可信、也比较准确。对结构生物学来说,这是一个颠覆性突破。此前人类尚未被解析的一些结构,现在基本上都已经被预测。对生物化学、细胞生物学、遗传发育、神经生物学、微生物学、病理药理等一大批生命学科和研究领域来说,这会大大改进人们对于生命过程的理解。比如,遗传学家也许积累了大量数据,但如果不知道蛋白质结构,就没法研究某个突变对于蛋白功能的影响。现在不同了,通过AlphaFold2的结构预测就能查看人类遗传病中的每一个突变在相关蛋白结构里的具体位置,进而有可能推测出蛋白功能如何受到影响。再比如,DeepMind预测出来的蛋白结构,包括了众多G蛋白偶联受体和关键酶在内的一大批结构未知的药物靶点蛋白,而且预测的结构足够准确。这对于制药界来说太重要了,等于提供了可靠的药物设计和药物优化的重要基础。单个蛋白质结构预测只是起点今年7月,DeepMind公开了AlphaFold2的源代码,并在《自然》上发表论文阐述了AlphaFold2的技术细节。“这次开源在生物学界掀起了巨大的波澜,意味着生物学家终于摆脱了先进设备的掣肘——此前这些昂贵的先进设备只有经费充足的大学或研究机构才有条件配置,而此后,小型团队或者个人研究者也有了参与蛋白质研究的可能。”天壤创始人、上海交通大学计算机系原副教授薛贵荣说。苗洪江认为,目前的单个蛋白质结构预测只是一个起点,更加精准的侧链优化、蛋白质的动态分析、蛋白质与其配体(如小分子、DNA、RNA、多肽、蛋白质等)的相互作用等一系列的问题还没有解决,接下来的工作重点将是利用目前的全蛋白质组协同进化分析,建立起蛋白质与蛋白质之间相互作用的精准链路。有了算法模型只是开始,向前走依然困难很多,薛贵荣坦言:“算力是很大的制约因素,比如AlphaFold2做了大量的数据蒸馏工作,他们的算法模型是基于30%的真实数据和70%的蒸馏数据一起训练的,背后是巨大的算力支持。”充足的算力可以让蛋白质结构预测从单一结构向相互作用、从两两研究向规模化、从微观结构向宏观系统前进,“生物界有很多蛋白结构,比如基因测序大概已经测了几十亿条序列。但我们只知道序列,不知道结构,这就是很大的信息缺失问题。”薛贵荣说,“蛋白质通常以复合物的形式成对或成组地承担生命所需的种种功能。然而许多蛋白质复合物的结构仍然是谜,蛋白质之间的相互作用也尚未被识别。我们需要有充足的算力去支撑整个体系,进行蛋白质结构预测、蛋白质设计,研究蛋白质相互作用,药物研发等漫长而富有挑战的工作,寻找精准的疾病治疗新方法。”同时,在数据来源和应用方面,也需要药厂、医院等进行协同和联动。“未来更多的医药企业、机构,以及人工智能公司,要一起把这个行业做大,现在只是个开始。”薛贵荣说。(记者崔爽)突破丨DeepMind精准预测蛋白质结构,AI解决50年生物学难题!
Hassabis还透露道,DeepMind目前正在研究以“可扩展方式”为科学家提供访问AlphaFold系统的途径。
DeepMind的这一成就不仅引来不少业界人士的点赞,Nature还发文称,“这将改变一切”。
此前,DeepMind在国际象棋、围棋、游戏星际争霸II和老式的Atari经典游戏中,都战胜了人类玩家,这次,他们更是直接向学术圈发起了挑战。
论预测蛋白质结构的不可能
我们都知道,在每个活细胞内部有着成千上万种不同的蛋白质,蛋白质的不同折叠程度决定了它的独特功能。因此,如果我们能够预测蛋白质的结构变化,这对于人类攻克癌症等疑难杂症有着划时代的意义。
但是,要准确预测蛋白质的折叠,在过去50年间一直困扰着生物学家。
这就要从蛋白质的生成说起了。以DNA生物为例,DNA由4种碱基组成,这4种碱基能够通过转录和翻译生成64种密码子,这64种密码子又对应着20多种氨基酸,氨基酸之间的排列组合,构成了数万至数亿种不同的蛋白质。但是,决定蛋白质不同功能的,除了氨基酸的种类数量外,氨基酸的3D结构起着更为重要的作用。
从理论上来说,如果我们知道了DNA序列,就能够绘制出氨基酸序列和蛋白质结构,但如果想要实现这种预测,中间涉及的计算难度难以想象。
早在1969年,CyrusLevinthal就指出,如果我们使用蛮力计算的方式,枚举每一种蛋白质可能存在的结构,那么我们要花费的时间甚至比宇宙的年龄还要长。Levinthal估计,一种蛋白质大约存在10*300种结构,但在自然界中,蛋白质会自发折叠,有些只需几毫秒。
AlphaFold如何将不可能变为可能
2018年,DeepMind团队就已经用初始版AlphaFold参加了CASP13比赛,当时他们也取得了最高的准确率,随后,DeepMind还把CASP13方法和相关代码发表在了Nature上。
如今,DeepMind团队利用新的深度学习架构继续参赛CASP14,也刷新了自己的记录,准确率达到了92.4GDT。
DeepMind团队使用的数据也都是公开数据,包括蛋白质结构数据库(PDB)和包含未知结构蛋白质序列的大型数据库,共约170,000个蛋白质结构。运行周期持续了数周,主要使用了约128个TPUv3内核运行。
正如上文所说,如果我们把蛋白质的3D结构视为一张空间图,用节点表示残基,边将残基紧密连接起来,要理解这种结构,DeepMind团队创建了一个基于注意力的神经网络系统,用端到端的方式进行训练,并且基于构建的隐式图执行推理。
通过迭代这一过程,该系统能够较强地预测蛋白质的底层物理结构,并在几天内确定高度准确的结构。此外,AlphaFold还能使用内部置信度度量指标判断预测的每个蛋白质结构中哪一部分比较可靠。
AlphaFold负责人JohnJumper认为,要想产出“真正具有生物学相关性,或在实验上有竞争力”的成果,还有一段路要走。
CASP主席JohnMoult教授表示:“DeepMind已经取得领先。生物学长达50年的难题在很大程度上已得到解决。对于药物设计以及蛋白质设计等新兴领域,这都将产生重大影响。”
DeepMind团队表示,他们准备在适当的时候将AlphaFold新系统相关论文提交至同行评审期刊。
相关报道:
https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
实习/全职编辑记者招聘ing
加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn返回搜狐,查看更多
特稿|AI小样本训练,16秒精准预测蛋白质结构:自起炉灶有深意
2016年,DeepMind人工智能机器人AlphaGo以4:1的总比分取胜围棋世界冠军韩国棋手李世石。这一年,一家刚刚成立的上海AI企业开始参考AlphaGo开发一套AI围棋程序,随后击败世界围棋冠军朴廷桓。2020年,DeepMind人工智能程序AlphaFold2快速精准预测蛋白质结构,准确度媲美冷冻电镜等实验技术。一年后,这家本土AI企业再次推出国产自研蛋白质结构预测平台TRFold。
近日,上海天壤智能科技有限公司XLab发布蛋白质结构预测平台TRFold,其最新版本的预测精度接近AlphaFold2,并突破AlphaFold2需要超大算力的瓶颈,采取权重共享的方式节约算力,预测大多数蛋白质链所需时间不超过16秒。
在AlphaFold2已开源的情况下为何还要做人工智能蛋白质结构测序?再做一遍的挑战在哪?数据、算力不足情况下如何训练出一个好模型?接下来又会用TRFold做什么?
天壤创始人薛贵荣在接受澎湃新闻(www.thepaper.cn)专访时表示,AlphaFold2为结构生物学研究打开了大门,它就像“莱特兄弟的飞机”,其中的核心技术一定要自己掌握。如果不参与其中的技术演变,只能停留在最初的“飞机”结构。
研发TRFold也让薛贵荣意识到,AlphaFold2另一个贡献是其训练方法可以回馈AI,去做更好的AI。
薛贵荣表示,如果每个模型都需要标注10000个数据才能训练,对AI是一场灾难。实际上,数据是永远不够的,算力也是永远不够的,这种情况下算法的创新就显得更加重要了,比如能否用10张图片跑出一个好模型。他认为,小样本下的机器学习对AI来说是个大挑战,而AI的工业化生产并不需要那么多数据,这才是正道。
未来,团队也将继续深入模拟蛋白质与蛋白质之间的相互作用,基于相互作用可构建大规模相互作用网络图、靶点发现、突变蛋白质结构模拟、抗体模拟等。
TRFold基于CASP14蛋白质测试集的评估数据。绿色:真实结构,蓝色:预测结构。
单张GPU下16秒精准预测
蛋白质是生命的物质基础,其三维结构直接决定了它的功能,一旦三维结构被破坏,蛋白质功能随之丧失或改变,许多疾病就是由体内重要的蛋白质结构异常所致。
每个蛋白质的氨基酸链扭曲、折叠、缠绕成复杂的结构,想要破解这种结构通常需要花很长时间,甚至难以完成。截至目前,约有18万个蛋白质的结构已经用实验方法得到了解析,但这在已经测序的数十亿计的蛋白质中只占了很小一部分。
在蛋白质结构解析的几十年历史中,X射线晶体学、核磁共振波谱学(NMR)、冷冻电镜(Cryo-SEM)技术纷纷发挥了巨大贡献。但这些传统方法往往依赖大量试错和昂贵设备,每种结构的研究都要花数年时间。
直到AI的加入,让单个蛋白质折叠预测问题得到基本解决,加速结构生物学的发展。2020年,DeepMind人工智能程序AlphaFold2在蛋白质结构预测竞赛CASP14中首次利用人工智能技术快速精准预测蛋白质结构,准确度达到原子级别,可与冷冻电镜等实验技术相媲美。
而国内的学术界和产业界也在蛋白质结构预测领域紧追国际步伐。除了中科院的Falcon、腾讯的TFold、深势科技的Uni-Fold,天壤自研蛋白质结构预测平台TRFold基于CASP14的蛋白质测试集进行企业内测,取得82.7分(TM-Score,评估蛋白质结构拓扑相似性的指标),超过华盛顿大学生物学家DavidBaker团队81.3分的成绩,仅次于AlphaFold2的91.1分。
TRFold采取权重共享的方式节约算力,算力消耗约AlphaFold2的1/32。在训练时,AlphaFold2使用了128个TPUv3核心(约等于256张GPU),TRFold仅使用了8张NvidiaRTX3090GPU,以极小算力取得接近AlphaFold2的成绩。
TRFold采用5000万参数循环多轨注意力网络,同时支持氨基酸残基间的距离预测和蛋白质全链结构预测,400个氨基酸的蛋白链使用单张NvidiaRTX3090GPU的预测时间只需16秒,而AlphaFold2预测约同样数量的氨基酸蛋白链则需要70多秒。
在CASP14比赛期间,CASP官方曾发起一次针对新型冠状病毒肺炎的蛋白质结构预测,天壤基于TRFold提交的模型(nsp6-D2)预测结果还被CASP选为六个“最具可信度模型”之一。
传统意义上,单个蛋白质模型的预测分数达到90分以上就与实验室的预测结果差别不大,薛贵荣表示,TRFold将继续迭代,单蛋白的结构模拟只是开始,未来天壤计划模拟蛋白质与其复合物的相互作用,包括小分子、多肽、其他蛋白质等。
他表示,目前明确的研究方向是继续深入模拟蛋白质与蛋白质之间的相互作用。基于相互作用可构建大规模相互作用网络图,以及靶点发现、突变蛋白质结构模拟、抗体模拟等。
“蛋白质将来会是一个相互作用网络,我们获得这个作用网络以后就可以进行深入分析。”薛贵荣说,如果将来每个人的蛋白质结构和作用网络能全部测出,就可以提前通过蛋白质内部结构的突变分析,预测出未来的健康状况和治疗手段。
“这里面能做的事情实在太多了,我们今天只是海里的水取了一瓢出来看了一下而已。”而挑战也是不言而喻的,多蛋白的相互作用带来的算力消耗更大,假设一个亿的蛋白质和另外一个亿的蛋白质交互,那是一个亿乘一个亿的计算组合。“这个组合是爆炸的,用什么样的算法、策略来加速,这是一个很挑战的事。”
薛贵荣
“莱特兄弟的飞机”
2016年,DeepMind人工智能机器人AlphaGo约战围棋世界冠军韩国棋手李世石,以4:1的总比分取胜。这一年,刚刚成立的天壤开始参考AlphaGo开发一套AI围棋程序。
2018年5月,天壤AI围棋执白子对战世界围棋冠军朴廷桓,激战三小时后朴廷桓认负。而这套AI围棋程序最后用在了城市交通信号灯的控制上,帮助缓解交通拥堵。
2019年,天壤涉足蛋白质结构预测。薛贵荣常被问到,为何要进入蛋白质预测领域,又或是在AlphaFold2已开源的情况下为何还要做蛋白质结构测序。
“从我们一开始做AI围棋程序时就慢慢认识了AI的威力。这么多年来天壤一直希望用AI解决有挑战的大问题,比如交通,然后是生物。”薛贵荣表示,相对于交通这样从宏观层面用算法调度,人类对微观世界的认识就更有限了。
“我们从2019年开始做这件事,那时候的蛋白质结构数据和今天其实没什么大的变化。十来万有结构的蛋白质能不能用算法手段把微观世界未知的蛋白质三维结构刻画出来,这其实是一个很挑战的事。那时候有没有AlphaFold2也不知道,更别谈能不能做得出来。”
但如果蛋白质预测模型能达到实验仪器的精度,将是巨大进步。幸运的是,2020年底,AlphaFold2证明了算法的力量,让整个结构生物学界震惊,掀开了结构生物学的全新一页,“以前做一个蛋白质结构预测可能要花一到两年,突然一个小时就能解决。”
蛋白质结构预测问题的解决是生命科学探索的全新起点,薛贵荣说,这次变革为整个行业带来很大发展机会,技术突破将重构原来生物应用层面的许多逻辑,比如制药流程、疾病治疗、个性化医疗等。但事实上,AlphaFold2的开源代码只是推理代码,并没有公开训练代码。
AlphaFold2的成功是蛋白质结构预测方向的重大突破,而围绕蛋白质结构功能问题且能够达到实际落地应用准确度要求的AI算法的开发才刚刚开始,没有训练模型经验或没有具备能够训练出AlphaFold2结果的能力,是无法把该技术推进到解决更深层次的问题的。
“整个核心技术还是把控在人家自己手里,今天人家给你东西可以用,至于怎么来的你不知道。”薛贵荣表示。
比如DeepMind团队10月份发布的预测蛋白质复合体结构的AlphaFold-Multimer就是在AlphaFold2基础上进行微小调整后,将蛋白质与蛋白质之间的关系预测出来。这种更深入的研究就必须要有自己搭建底层算法的能力,才能真正应用在生物学领域。
“就像做飞机一样,从莱特兄弟发明第一架飞机能飞起来,如果中间过程不参与,你永远还是停留在当时那个结构。但今天大飞机在天上飞起来,能承载那么多人,其中有非常多的研究,很多创新也从中不断出现。”
薛贵荣说,今天DeepMind的AlphaFold2就是“莱特兄弟的飞机”,其中的核心技术一定要掌握,才能和其他团队在同一赛道比赛。“AlphaFold不断往前跑,我们也在不断追赶他们。”
AlphaFold2“反哺”AI
“我们很长时间一直也是在70分左右徘徊,也徘徊了很长时间,最近跳跃到80多分。”在两年半的研发时间里,TRFold经历了几十个版本的迭代,当前的训练架构是从今年初就开始设计,接着处理数据、训练数据,不停迭代,耗费10个月时间,目前取得82.7分。
而让团队头痛的挑战就是算力和内存,这决定了模型的大小。薛贵荣介绍,“小模型的记忆力是有限的,模型越大记忆能力就越强,但模型越大对应的算力和内存需求就越大。”在训练资源有限的情况下,团队从数据和网络设计上做出改进,在算力巨大差距的情况下实现了相对较好的结果。
“在后续构建蛋白质相互作用网络的过程中,涉及一个蛋白质和另一个蛋白质的相互作用,以及多个蛋白质之间的相互作用,计算量呈指数级增长。因此,TRFold以较小算力需求快速预测蛋白质结构对后续开展深入研究具有深远意义。”天壤XLab团队负责人苗洪江表示。
数据是机器学习的燃料,但相比以往图像识别机器学习算法需要依靠百万张图片数据来训练模型和系统,用实验方法已经解析的蛋白质结构只有十几万个。机器学习大牛吴恩达认为,人工智能落地的挑战之一是小数据的问题,如何使机器学习即使面对小数据也能工作。
而这也是困扰薛贵荣的问题。他和苗洪江第一天见面聊就在探讨,有结构的蛋白质数据够不够,能不能训练出一个满足效果的模型,还是说再等冷冻电镜10年,等50万数据出来就够了。“那时候我们也很担心,我们就怕这个领域做下去真的是10年以后的事了。”
但AlphaFold2证明,通过算法和模型设计、蒸馏数据等手段,是可以取得好结果的。相比AlphaFold2,TRFold的算法模型仅采用少量的真实数据训练,即从多个宏蛋白质组序列库中寻找出蕴含更精准共进化信息的多序列排列,使模型在训练过程中能够获得对真实共进化信息更好的识别能力,从而取得对氨基酸残基距离和坐标更准确的预测结果。团队有望在近期加入蒸馏数据增强工作,进一步提高模型的预测和泛化能力。
回过头来看,薛贵荣认为,除了为结构生物学研究打开了大门,AlphaFold2另一个贡献是其训练方法可以回馈AI,去做更好的AI。
“AI三个步骤,数据标注准备好,算法设计好,目标要想好,有了这三件事再加上算力支持才能做AI。”但实际上,数据是永远不够的,算力也是永远不够的,这种情况下算法的创新就显得更加重要了。
“10张图片能不能出来一个很好的模型?别变成给你10000张图片能不能出来一个好的模型。小样本情况下的机器学习能不能做好,其实这对整个AI领域是一个很大的挑战,因为只有小样本才能具备规模化、工业化的生产能力。”薛贵荣表示,如果每个模型都需要标注10000个数据才能训练,数据标注行业的发展势头会很好,但对AI来讲是一场灾难。
“做什么事都要标大量的数据怎么玩得下去?人工智能偏人工了。我们真正要做的是把智能这块做强,把人工这块限制在一个框框内,这才是我们真正讲的从人工智能走向机器智能。”从AlphaFold到AlphaFold2,薛贵荣认为,这就是人工智能走向机器智能的巨大变化。AI的工业化生产并不需要那么多数据,这才是正道。