人工智能预测蛋白质结构(新知)
近日,人工智能企业上海天壤智能科技有限公司宣布,其自主研发的深度学习蛋白质折叠预测平台在国际蛋白质结构预测竞赛蛋白质测试集的评估中获得优异成绩,位居全球同类型团队前列。在400个氨基酸的蛋白链预测时,该预测平台仅耗时16秒。
科学家说,蛋白质是细胞中的主要功能分子,在细胞中发挥多种多样的功能。比如,作为酶发挥催化作用,参与生物体内新陈代谢的调剂作用,运输代谢物质,用于细胞骨架的形成,以及参与免疫、细胞分化、细胞凋亡等过程。作为构成生命的基本元件,破解蛋白质的功能是揭开各种生命现象的金钥匙。
据天壤创始人薛贵荣博士介绍,为了行使特定功能,蛋白质必须折叠成特定的结构,只有少数蛋白质处于天然无折叠状态但仍具有功能。蛋白质的三维结构也直接决定蛋白质的功能,一旦三维结构被破坏,蛋白质功能随之丧失。许多疾病都是由体内重要的蛋白质结构异常引起。因此,研究蛋白质结构有助于了解蛋白质的功能和作用,从而带来医疗保健、食品可持续性、创新生物技术等方面的改善,推进生命科学、药物研发、合成生物学方面的发展。
在生命科学领域,观测和解析蛋白质结构一直是个令人着迷的话题,吸引着众多科学家攻坚,但也面临着难度大、成本高、进展有限的局面。传统观测蛋白质结构的方法主要有三种:核磁共振、X射线、冷冻电镜。这些方法依赖大量试错以及昂贵的设备,每种结构的研究往往长达数年。现有的实验手段也还不足以揭示一些重要的蛋白结构,需要借助更多生物信息技术、计算生物学手段去探索。但使用普通的计算机软件来计算蛋白质结构,运算量相当惊人,连超级计算机也难以承受。为此,蛋白质结构预测成为结构生物学的重要分支,研究人员通过开发相关的人工智能算法,根据氨基酸序列来预测蛋白质的空间结构。
“从人工智能战胜围棋世界冠军,到城市交通调度,人工智能在解决复杂系统问题中显示出了惊人的智能决策能力,而蛋白质结构预测虽然是生物学课题,同时也属于复杂场景的问题,可以体现人工智能在基础科学研究中的巨大潜能,我们不愿意错过这道风景。”薛贵荣说,像这种全方位的创新项目非常珍贵,它覆盖了交叉学科的创新、行业的创新、基础科学的创新、人工智能算法和工程能力的创新。
近期的这些进展表明,将人工智能应用于蛋白质结构领域,通过预测的方式破解传统观测方法所不能解析的一些结构,且可信度比较高,十分接近事实。这种人工智能的结构预测算法,有望成为科学家的利器,加速生命科学领域的研究发展。
目前,单个蛋白质折叠预测只是一个起点,蛋白质通常以复合物的形式成对或成组发挥功能,以承担生命所需的种种功能,而许多蛋白质复合物的结构至今仍然成谜。薛贵荣认为,未来还要进一步提高人工智能算法的普适性和准确度,在揭示多个蛋白质之间的相互作用方面作出贡献,帮助人类寻找到精准的疾病治疗新方法。
《人民日报》(2021年12月27日18版)(责编:赵欣悦、袁勃)分享让更多人看到
Meta AI预测6亿蛋白质结构—论文—科学网
MetaAI预测6亿蛋白质结构
ESM宏基因组图谱数据库包含6.17亿个蛋白质的结构预测。图片来源:ESM宏基因组图谱
谷歌旗下人工智能(AI)公司DeepMind今年公布了2.2亿个蛋白质的预测结构,几乎涵盖了DNA数据库中已知生物的所有蛋白质。现在,另一个科技巨头正在填补蛋白质宇宙中的暗物质。
Meta公司(前身为Facebook)的研究人员使用人工智能预测了约6亿个蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。相关研究11月1日发表于预印本网站BioRxiv。
“这些是非常神秘的蛋白质,为深入了解生物学提供了可能性。”Meta人工智能蛋白质团队研究负责人AlexanderRives说。
该团队使用“大型语言模型”生成了这些预测。“大型语言模型”是一种人工智能,可作为通过几个字母或单词预测文本的工具的基础。
通常语言模型是在大量文本的基础上进行训练的。为了将其应用于蛋白质,Rives团队将已知蛋白质序列“喂”给它们,这些蛋白质可以由20个不同的氨基酸链表示,每个氨基酸链由一个字母表示。然后,该模型学会了在氨基酸比例模糊的情况下“自动补全”蛋白质。
Rives说,这种训练使模型对蛋白质序列有了直观的理解,蛋白质序列包含了蛋白质形状的信息。
第二步,受DeepMind开创性蛋白质结构人工智能算法AlphaFold的启发,模型将这种洞察力与已知蛋白质结构和序列之间关系的信息相结合,从蛋白质序列中生成预测结构。
今年夏天早些时候,Rives团队报告称,其模型算法名为ESMFold,虽准确性不如AlphaFold,但在预测结构方面要快60倍左右。“这意味着我们可以将结构预测扩展到更大的数据库中。”Rives说。
作为一个测试案例,研究团队决定将模型应用于大规模测序的“宏基因组”DNA数据库,这些DNA来自于环境,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。绝大多数编码潜在蛋白质的DNA条目来自从未被培养过的生物,也不为科学家所知。
Meta团队总共预测了超过6.17亿个蛋白质的结构,这项工作只花了两周时间。Rives表示,预测是免费的,任何人都可以使用,就像模型的底层代码一样。
在这6.17亿个预测中,该模型认为超过1/3的预测是高质量的,因此研究人员可以确信蛋白质的整体形状是正确的,在某些情况下,模型可以识别更精细的原子级细节。值得一提的是,其中数以百万计的结构都是全新的,与实验确定的蛋白质结构数据库,或从已知生物体预测的AlphaFold数据库中的结构都不同。
AlphaFold数据库的很大一部分是由彼此几乎相同的结构组成的,而宏基因组数据库则应该涵盖以前从未见过的蛋白质宇宙的很大一部分。
美国哈佛大学进化生物学家SergeyOvchinnikov对ESMFold做出的数亿个预测表示怀疑。他认为,有些蛋白质可能缺乏确定的结构,而另一些可能是非编码DNA,被误认为是蛋白质编码材料。
德国慕尼黑工业大学计算生物学家BurkhardRost对Meta公司模型的速度和准确性的结合印象深刻。但他质疑,从宏基因组数据库预测蛋白质是否真的比AlphaFold的精确度更高。基于语言模型的预测方法,更适合快速确定突变如何改变蛋白质结构,这是AlphaFold无法做到的。
据DeepMind的一位代表说,该公司目前没有计划在其数据库中进行宏基因组结构预测,但不排除在未来这样做的可能性。
韩国首尔国立大学计算生物学家MartinSteinegger认为,这类工具的下一步显然是研究生物学中的暗物质。“我们很快就会在这些宏基因组结构的分析方面出现爆炸式增长。”(来源:中国科学报 辛雨)
相关论文信息:https://doi.org/10.1101/2022.07.20.500902
颜宁等点评:AI精准预测蛋白质结构,结构生物学何去何从
原创颜宁、张阳等返朴
12月1日,谷歌旗下的DeepMind公司宣布,其新一代AlphaFold人工智能系统在国际蛋白质结构预测竞赛(CASP)上击败了其余的参会选手,精确预测了蛋白质的三维结构,准确性可与冷冻电子显微镜(cryo-EM)、核磁共振或X射线晶体学等实验技术相媲美。(详见《》)这一消息引发了全球媒体关注,前Genentech首席执行官ArthurD.Levinson博士盛赞这一成就是“划时代的进步”。人工智能的“进击”对生物学、对其他学科会有什么影响?网络上有人提出:AI都能解蛋白质结构了,结构生物学家是不是该失业了?《返朴》总编、结构生物学家颜宁特邀几位同仁对这一新闻各抒己见,回答大家的疑问。
撰文|龚海鹏、龚新奇、李赛、王宏伟、颜宁、张鹏、张阳、周强
byAsierSanz|https://asiersanz.com/AlphaFold2是个大突破,但我们还有努力的方向
张阳
(ITASSER创造者,美国密歇根大学教授)
AlphaFold2显然是个大突破,这是从1969年第一篇JournalofMolecularBiology论文用比较建模方法预测蛋白质结构的51年来的真正突破。
最近四年来,有共同进化预测contactmap(氨基酸接触图谱),并引入深度学习之后,原来的ITASSER/Rosetta/RaptorX等算法都有了很大进步,比原来提升了计算精度一倍以上,只不过AlphaFold2进步更多,说他们接近解决了这个问题没错。
谷歌公司拥有强大的资源,他们用TPU,我们用GPU,而很多实验室还没有GPU。他们原来在宣传中说只用100个GPU训练了两周,这是不客观的。因为训练稳定的模型,起码要重复100次甚至1000次,就像饿汉一样,不能说最后一个馒头才有作用,前面那么多的尝试都有作用。这是学术界与产业界最大的差别。
当然,他们不训练contactmap,直接训练结构中的原子坐标,这是新的想法,以前没人成功过。
我很高兴他们取得了突破,因为证明了蛋白质结构预测问题是可以解决的,我在15年前的PNAS论文上提出,用PDB库中的模板在理论上可以解决这个问题,他们这次用暴力实现了。
但基于商业或其它考虑,他们还不会公开代码或server,所以要依靠我们科学界来做出让公众受益的方法。这次只有2/3的题目可以做到实验精度,还有1/3做不到,是否还有更快更好的途径来产生更高精度结构的算法?这是值得我们努力的方向。
共赢大于竞争
龚新奇
(中国人民大学数学科学研究院教授,清华大学北京结构生物学高精尖中心合作研究员)
2020年第14届国际蛋白质结构预测竞赛(CASP14)共有84个常规(Regular)题目,其中有14个题目因为生物实验没给出确定结构等原因被取消或延缓,其他70个题目的单体和复合物蛋白质所含有的氨基酸个数从73到2180不等。
19个国家的215个小组参加了CASP14。最终,谷歌旗下DeepMind公司的人工智能系统AlphaFold2在2018年的Alphafold基础上迭代创新,超常发挥,一枝独秀,基本解决了“从氨基酸序列预测蛋白质结构”这个困扰人类50年的生物学第二遗传密码问题。
AlphaFold2的成功表现在三个方面:
不少结构的预测精确度跟实验晶体结构相当,可以替代晶体结构;
一些含有多个结构域的复杂超长的单链结构也达到了可以跟实验结构比较的程度;
帮助解析了竞赛中涉及到的、实验多年没拿到的X射线晶体和cryo-EM冷冻电镜结构,比如T1058的膜蛋白是用了Alphafold2的预测模型之后,才跟原有晶体学数据综合成功解析了结构。
AlphaFold2团队的JohnJumper报告表明,他们使用了基于注意机制的神经网络,动态调整网络中节点的顺序和链接;依靠的是端到端的优化整体构建结构,而不是氨基酸距离;网络中内置了大量的序列、结构和宏基因组等多重比较信息;还依赖分子模拟软件优化去掉了原子的堆积碰撞。
在AlphaFold2的摘要作者名单里,交叉团队的30位作者中有19位都被标记为相同贡献的第一作者。他们将近8分钟的宣介视频,记录了团队成员在新冠疫情期间精诚合作、攻坚克难的宝贵场景。
CASP组织者JohnMoult指出,计算下一步还有更困难的问题要解决:超大复合物结构、动态构象变化、蛋白质设计、药物设计等等。
除了我们蛋白质结构预测小同行对AlphaFold2的成功很欣喜之外,社会上还有多个不同方向的学术界、产业界和新闻界对它寄予了厚望。
在欣喜的同时,蛋白质结构预测小同行也有一些保留意见:
工程化明显,依赖于强大的GPU计算资源和代码优化团队;
谷歌公司几乎可以收集全球所有网络信息,虽然看起来AlphaFold2的自动化程度很高,但他们在人工操作中使用了哪些信息值得关注;
预测对了结构,但不等于明白了蛋白质折叠过程和原理。
生物实验科学家也有不少看法:
算出结构只是生物学规律发现的第一步;
计算的多个models中,有时打分排序不准;
开放AlphaFold2的server之后,使用效果不一定那么好;
只是在已有蛋白质结构数据集上训练得到的模型,尚不能计算其它构象或其它类别的分子结构。
还有关心这个领域的其他方向的专家也提出了问题:怎么理解这个算法成功的原理?怎么跟原有的热力学、物理学等基本原理相融相通?
我认为AlphaFold2是个大突破,后续可能性很多,会替代一些简单的结构生物学实验,但对当下科学家追求的前沿生物学来说,共赢大于竞争;对生物学、数学和计算机学等学科而言,则会带来新的机遇。
技术服务于科学探索,结构生物学早就进入新时代
颜宁
(美国普林斯顿大学雪莉·蒂尔曼终身讲席教授,美国科学院外籍院士)
首先,简单说一下,什么是生物学里的“结构”。用个不太恰当的类比:变形金刚。比如擎天柱是辆车还是个机器人,这就是不同的结构了,机器人能打架大车做运输,功能也不一样。而不同的汽车人组成成分可能差不多,都有合金、玻璃、橡胶,但是形态各异,特长也不一样。生物分子的组成成分和基本单元就那么几种,但是组装起来,不同的序列不同的结构,于是功能各异、五花八门。这个结构不是静止的,每一个生物大分子基本都像个小机器,比变形金刚更复杂、更变化多端。
因为结构决定了生物大分子的功能,所以解析高分辨率结构在过去几十年一直是理解生物大分子工作机理最有力的工具。但是一直以来,因为技术局限,对于绝大多数生物大分子的结构解析困难重重。所以,一批科学家另辟蹊径,试图在已有的知识基础上,绕开劳心劳力又劳财的实验步骤,从蛋白质的序列直接通过计算预测出它们精准的三维结构。
蛋白结构预测并不是一个新鲜学科,一直以来就是结构生物学的一个分支,很多科学家不断开发算法,希望根据序列预测出来的结构越来越准确。这个领域在过去十几年进步迅速,并且与实验结构生物学融合度越来越高。比如,自从进入电镜时代,看到一堆黑白灰的密度,如果其中某些部分没有同源结构,通过软件预测一个大致的结构模型,放到密度图里面做框架,再根据实验数据调整,已经是个常规操作。
这次人工智能赢得CASP的新闻亮点有两个,一是AI,二是准确度高。这确实是突破,但是有了两年前的新闻(注:2018年,DeepMind开发的第一代AlphaFold首次参加CASP并且拔得头筹)做铺垫,现在这次委实是意料之中。
至于衍生出来的所谓“结构生物学家都要失业了”的调侃——如果你对结构生物学的理解还停留在20年前,那这么说也不是不行。但是结构生物学自身一直在发展着,一场冷冻电镜的分辨率革命更是令结构生物学不同往日了。我在2015年主持一个学术研讨会的时候曾经评论过:结构生物学的主语是生物学,是理解生命、是做出生物学发现。但是,在X-射线晶体学为主要手段的时代,获得大多数研究对象的结构本身太难了,于是很多研究者把“获得结构”本身作为了目标,让外行误以为结构生物学就是解结构。但我从进入这个领域之初,就被教育得明明白白:结构本身只是手段,它们是为了回答问题、做出发现。而电镜使得“发现”二字尤为突出。
看到结构本身、知道你的研究对象长啥样,倒也可以称之为发现,但我刚刚说的“发现”,特指那些超乎想象的、通过结构才揭示出来的、自然界里神奇的存在或者令人叹为观止的机理。我讲课最喜欢举的例子之一就是施一公组的剪接体结构。为啥呢?因为它集合了结构生物学发现里几乎所有的精彩要素和挑战。
第一,在剪接体结构出来之前,有很多剪接体的组分甚至是未知的。不同于传统的结构生物学,先知道你要研究对象是啥,再吭哧吭哧地去把它们的结构解出来——剪接体的电镜分析是看到了密度图之后,完全不晓得这是啥,需要通过质谱等手段去鉴定组分。我从2015年就预测:电镜与质谱组合,将会变成一个重要的生物学研究发现手段。在电镜时代,这样的例子越来越多。比如清华大学隋森芳老师组的那个巨大的藻胆体结构,靠质谱都不够了。为了搞明白组分,他们甚至先做了基因组测序。
第二,几十上百个蛋白如何众星捧月地把那么几条貌似简单的RNA掰成与几个小小的金属离子配合的核酶反应中心,在茫茫碱基中,在正确的时间正确的地点牵线搭桥,剪掉intron(内含子),连接exon(外显子)?就为了这一“剪子”一“钩针”,为了几毫秒的过程,这么个庞然大物的几十上百个组成部件却要分分合合,这个过程是真神奇。
施一公实验室报道的首个酵母剪接体的结构(图源:生物化学经典教材LehningerPrinciplesofBiochemistry(第七版)封面)
结构生物学目前的实验手段只能获得静止的3D照片,为了揭示这部电影,就要不断获得中间态的3D照片,帧数越多,电影越精准。但即便如此,这个过程中的动力学问题,简单说,就是变化速度,依旧不是现在的结构生物学实验手段可以揭示的,需要借助更多生物物理技术、计算生物学手段去探索。
我自己的工作虽然没有剪接体那么酷炫,但是电压门控钠离子通道如何感受膜电势的变化,开门关门,就这么个过程,听着简单,我们死磕三年了,依旧束手无策。另外,我们今年发的两篇PNAS论文其实代表了结构生物学的另一个努力方向:在实验操作过程中对生物大分子施加外力(电场、磁场、各种长度的波......)。
也许是受到我自身专业领域的局限,AlphaFold迄今带给我的震撼还赶不上冷冻电镜的革命,后者将我们从技术挣扎中解放出来,可以专注于结构带来的生物学发现本身。
AlphaFold目前最成功的预测是针对单链分子,当然将来预测复合物的高精结构也应该不在话下。相比于对蛋白折叠的贡献,我倒是更希望AI能够助力MolecularDynamicsSimulation(分子动力学模拟)。对结构生物学而言,这个领域才是亟需进步的。
我个人认为生命是地球上最神奇的存在,那么多未知要探索,任何一次技术进步都是契机。该考虑的是如何把新技术为我所用,去问出、去探索更有意思的问题。
最后,当AI能够成功预测我们正在孜孜以求的生物大分子动态、原位高分辨率结构的时候,那失业的一定不止是结构生物学家、或者生物学家了:p
各抒己见
根据现在披露的结果,AlphaFold2已经基本达到实验解析结构的精度。前天AlphaFold2团队的报告展示了新冠病毒SARS-COV-2的预测结果,说明RNA聚合酶这么大的蛋白也能基本预测准确。理论上,这会对结构生物学有很大冲击,尤其是以后单颗粒cryo-EM的实验方法上,是否还需要把分辨率做得那么高?低分辨率的电子密度图,甚至SAXS数据结合预测结果应该就能解决问题了。
但是,现实中的冲击不会那么大。这是因为,AlphaFold2模型的创新性非常高,其中结合的2Dtransformer和3Dequivarianttransformer都是AI领域的前沿技术,模型的训练难度很大。DeepMind的训练方法在学术界很难复现,估计学术界要花几年的时间才能跟上,因此短期内AlphaFold2对结构生物学的影响会比较有限。DeepMind可能会和个别实验室合作,预测蛋白质结构。
——龚海鹏(计算生物学家,清华大学结构生物学高精尖创新中心研究员)
AlphaFold为结构生物学家提供了除晶体学、冷冻电镜、NMR以外的另外一种手段,用于揭示生物大分子发挥作用的分子机制。
——张鹏(结构生物学家,主要利用晶体学和冷冻电镜技术;中科院分子植物科学卓越创新中心研究员)
AlphaFold目前还不能预测复杂的分子机器,主要是因为蛋白-蛋白相互作用非常复杂,存在极多的可能性。实验手段所揭示出来的蛋白-蛋白相互作用方式还只是冰山一角,更何况在不同生理条件和过程中的结构变化。因此,未来对有特定功能的、多个成分组成的、生物大分子复合体的结构解析,以及体内的结构分析,将成为结构生物学实验研究的主要内容。无论有没有AlphaFold,结构生物学也正在朝这个方向发展。
Rosetta(注:从头蛋白结构建模算法)也好,AI也罢,结构预测都是基于已有的实验数据够大。没有足够的数据积累,这些基于统计和数据库的预测就无法实现。完全基于物理学和化学第一性原理的结构预测还没有出现。
实验科学永远是探索未知的必要手段。新的软件算法应该是成为实验科学家的更有力工具,而不是取代实验科学。
——王宏伟(cryo-EM专家,清华大学结构生物学高精尖创新中心执行主任,清华大学生命科学学院院长)
最近两年,结构生物学领域经历了与围棋界类似的故事。AlphagoFan版本时围棋界并不认为它能够战胜人类顶尖高手,可是AlphagoLee后整个围棋界甘拜下风,并且转向AI拜师学艺。2018年Alphafold出现时,实验结构生物学领域认为被战胜的仅仅是传统的结构预测领域,2020年Alphafold2之后,实验结构生物学领域应该开始思考如何与之共存以及如何“拜师学艺”了。目前阶段人工智能在围棋上已经远远超过人类顶尖棋手,但是人类围棋比赛并未因此取消,如同汽车发明后奥林匹克仍然在进行田径比赛一样。原因之一是人工智能虽然超越了人类,但并未解决围棋的最终解。同样的道理,对于复杂的结构生物学问题,预测手段本身还不能号称完全解决了问题。实验结构生物学领域接下来需要做的一个事情是要拥抱变化,更好地与预测方法结合以及共同发展。
——周强(cryo-EM专家,西湖大学生命科学学院特聘研究员)
蛋白质体系越大,结构的解析越难仅依赖计算方法。Cryo-ET(冷冻电镜断层成像)技术擅长解析体外难表达的大分子机器结构、细胞中的原位蛋白结构等复杂体系,因此很难被脱离实验手段的方法取代。目前,由于体系过于复杂,使用分子动力学模拟整颗病毒尚未实现,要模拟细菌、细胞、组织,还要很长的路要走。
——李赛(Cryo-ET专家,清华大学结构生物学高精尖创新中心研究员)
版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。
原标题:《颜宁等点评:AI精准预测蛋白质结构,结构生物学何去何从?》
阅读原文
2023年度十大科学突破:人工智能可预测蛋白质结构居首
临近年末,各大机构在发布2021年度的各项榜单,科学领域也不例外。12月17日,《科学》网站公布了2021年度十大科学突破评选结果。
首先是“人工智能预测蛋白质结构”。今年7月,世界知名人工智能团队深度思维宣布,已经利用AI智能软件程序——阿尔法折叠预测了人类表达的几乎所有蛋白质的结构,以及其他20种生物几乎完整的蛋白质组,可以提供对基础生物学的见解并揭示潜在的药物靶点。
随后,中国、德国和美国的研究人员也利用这项技术进行了一系列学术研究。
排名第二的是“解锁古老泥土DNA宝库”。科学家们从洞穴地面的土壤中解锁了一个更大的DNA宝库,研究人员使用这种“泥土DNA”来重建世界各地穴居人的身份。
排名第三的是“实现历史性核聚变突破”。今年8月,美国国家点火装置产生了一种聚变反应,这种反应产生的能量比点燃它所需的激光能量更多。在研究中,研究人员表示,该聚变反应产生了足够的热量,可以像火焰一样通过压缩燃料传播。
除此之外,抗新冠强效药出现、“摇头丸”可治疗创伤后应激障碍、单克隆抗体治疗传染性疾病、“洞察”号首次揭示火星内部结构、粒子物理学的标准模型出现“裂缝”、CRISPR基因编辑疗法对人类疗效首次证明、体外胚胎培养为早期发育研究打开新窗户等也成功入选。
责任编辑:万南
人工智能成功预测蛋白质相互作用
来源:科技日报
美国科学家主导的国际科研团队在最新一期《科学》杂志撰文指出,他们利用人工智能和进化分析,绘制出了真核生物的蛋白质之间相互作用的3D模型,首次确定了100多个可能的蛋白质复合物,并为700多个蛋白质复合物提供了结构模型,深入研究蛋白质相互作用有望催生新的药物。
研究负责人之一、美国西南大学人类发育与发展中心助理教授丛前(音译)称,研究结果代表了结构生物学新时代的重大进步。
丛前解释说,蛋白质通常成对或成组工作,形成复合物,以完成生物体存活所需的任务。虽然科学家已经对其中一些相互作用开展了深入研究,但许多仍是未解之谜。了解蛋白质之间所有的相互作用将揭示生物学的许多基本方面,并为新药研发提供参考。
但半个世纪以来,鉴于许多蛋白质结构的不确定性,科学家们很难了解这些相互作用。2020年和2021年,深度思维公司和华盛顿大学戴维·贝克实验室独立发布了两种人工智能技术“阿尔法折叠”和RoseTTAFold,它们使用不同的策略预测蛋白质结构。
在最新研究中,丛前等人通过对许多酵母蛋白复合物建模,扩展了人工智能结构预测工具箱。为了找到可能相互作用的蛋白质,科学家们首先搜索相关真菌的基因组,寻找发生突变的基因,然后使用上述两种人工智能技术来确定这些蛋白质是否可以3D结构结合在一起。
他们确定了1505种可能的蛋白质复合物,其中699个结构已被表征,验证了其方法的实用性;另外700个复合物目前获得的数据有限,剩下106个从未被研究过。为更好地理解这些很少被描述或未知的复合物,团队研究了类似的蛋白质,并根据新发现的蛋白质与此前已知蛋白质的相互作用,确定了新发现蛋白质的作用。