蛋白质:人工智能破解生物学最大谜团之一的意义所在
蛋白质:人工智能破解生物学最大谜团之一的意义所在2020年12月4日图像来源,CASP/DEEPMIND/VTAGLIABRACCIDTOMCHICK,UTSOUTHWESTE图像加注文字,DeepMind预测的军团菌病细菌的蛋白质模型
半个世纪以来,预测一种蛋白质如何折叠成其特有的三维形状一直困惑着科学家,也是生物学的重大挑战之一。但专家们宣布,这个生物界最大谜团之一现在基本上已经被人工智能AI破解。总部在伦敦的英国人工智能公司DeepMind(深度思考)称,他们“基本上解开了这一难题”。更好地理解和预测蛋白质形状对未来新药的开发起到关键作用。谷歌旗下的DeepMind所取得的科技进步预期有望加速对包括新冠在内等一系列疾病的研究。一些来自美国的独立科学家表示,DeepMind系统对蛋白质形状预测的准确性可以跟那些昂贵和耗时的实验室方法相媲美。加利福尼亚大学戴维斯分校的克雷什塔夫维奇博士(AndriyKryshtafovych)是科学评审团成员之一,他形容DeepMind取得的这一成就“非常出色”。克雷什塔夫维奇博士表示,快速和准确地弄清蛋白质的形状有着彻底改变生命科学的潜能。“看图说话”人工智能成预测失智症能手观点:当人工智慧碰上医疗科学人工智能AI可帮助人类发挥“群体智慧”AlphaGo击败中国世界围棋冠军柯洁什么是蛋白质形状?图像来源,GettyImages图像加注文字,电脑上显示的是与受体相结合的蛋白质
蛋白质存在于所有生物体中,是细胞生存的基础。它们在生命必不可少的化学过程中发挥着核心作用。蛋白质由氨基酸按一定顺序结合形成的多肽链组成,它们以无数方式折叠成各种精致形状,而这是它们在身体中发挥重要角色的关键所在。许多疾病都与蛋白质所扮演的角色有关,比如,它们可以成为催发化学反应的酶、抗击疾病的抗体或是作为化学信使的荷尔蒙胰岛素等。美国马里兰大学的莫尔特博士(DrJohnMoult)是科学评审团的主席。他解释说,这些蛋白质分子哪怕是微小的重新组合排列都会对人们的健康产生灾难性的影响。因此,要了解疾病和找到新治疗手段就要研究蛋白质。莫尔特进一步解释,仅人类蛋白质就有成千上万种,其他物种的蛋白质更是多达几十亿,包括细菌和病毒的蛋白质。而目前人类只是试图破解一种蛋白质的形状就需要数年的时间和昂贵的仪器设备。预测竞赛1972年,美国生物学家克里斯蒂安·安芬森(ChristianAnfinsen)曾因为对氨基酸序列与生物活性构象之间关联的研究获得诺贝尔奖。安芬森认为,应该有可能根据蛋白质的组成成份氨基酸的序列来确定蛋白质的形状。自那以后,每两年全球20多个国家的几十个研究团队都会尝试让电脑通过氨基酸序列来预测大约100种蛋白质的形状。与此同时,生物学家们在实验室中则使用诸如X射线晶体学(X-raycrystallography)和核磁共振光谱法(NMRspectroscopy)这样的传统技术确定蛋白质的三维结构,以了解蛋白质分子中每一原子的相对位置。之后,由科学家组成的专门CASP小组(相当于全球蛋白质结构预测竞赛评审团,theCommunityWideExperimentontheCriticalAssessmentofTechniquesforProteinStructurePrediction)对这些团队用电脑所预测的蛋白质三维结构与使用实验室方法得出的三维结构结果进行比较。CASP评审小组使用从0-100的测量方法对各团队预测结果的准确性进行对比。DeepMind的人工智能AlphaFold获得了90分,与实验室预测结果相当。AI学习速度惊人图像来源,GettyImages图像加注文字,新冠病毒独特的刺突蛋白质(红色部分)
在最新一轮预测结果中(Casp-14),AlphaFold所预测的三分之二蛋白质形状准确性与实验室结果一致,另外一些预测结果虽然得分也很高,但准确性没有达到相同水平。AlphaFold使用深度学习算法,来学习和研究全球数据库中所保存的已知蛋白质的三维形状。这些折叠蛋白质的结构以空间图的方式呈现。BBC科学事务记者布里格斯(HelenBriggs)表示,AI的学习速度惊人,它用几天的时间就能达到实验室几十年的研究水平。用途和意义明确蛋白质的三维结构对开发新药以及了解包括癌症、失智症以及传染性疾病至关重要。以新冠为例,科学家一直在试图研究新冠病毒表面的刺突蛋白是如何与人类细胞中的受体相互作用的。伦敦大学学院的马丁教授告诉BBC记者,了解蛋白质序列如何折叠成三维形状其实是生物学最基本的问题之一。他解释说,蛋白质的功能完全取决于它的三维结构形状,而蛋白质功能则关系着我们健康与疾病的一切。因此,了解了蛋白质的三维结构有助于人们设计新药、防治疾病,无论是遗传疾病还是感染疾病。生物学最大谜团之一欧洲生物信息研究所桑顿教授(ProfDameJanetThornton)表示,蛋白质折叠成独一无二的美丽三维结构堪称是生物学上最大的谜团之一。她解释说,如果能更好地了解和预测蛋白质结构就意味着人类将能更好地了解生命、进化以及疾病和健康等问题。接下来,更多的科学家希望能检测这些数据以确定AI方法到底有多准确、多细致。目前,人类对蛋白质的知识仍存在缺口,包括多种蛋白质是如何组合到一起的,以及蛋白质如何与其他分子,例如脱氧核糖核酸(DNA)和核糖核酸(RNA)相互互动。克雷什塔夫维奇博士表示,现在基本上解决了单一蛋白质的结构问题。它为未来找到蛋白质复合体结构形状的新方法打开了一道大门。正是这些众多蛋白质复合体的共同作用才形成了生命的主要机制以及其他功能。人工智能破解蛋白质复合物密码—论文—科学网
人工智能破解蛋白质复合物密码
在蛋白质结构预测上,人工智能革命仍在继续。一年前,软件程序首次成功地模拟了单个蛋白质的3D形状,其精确度与几十年前的实验技术测出的一样准确。今年夏天,研究人员利用人工智能程序编程了一个近乎完整的人类蛋白质结构目录。
现在,美国研究人员更进一步,使用人工智能技术确定了不同蛋白质之间可能的相互作用,以及由这种相互作用产生的“复合体”是什么样子的。相关研究结果发表于《科学》。
斯坦福大学系统生物学家MichaelSnyder表示,这项新发现会促进细胞生物学领域产生一系列新观点,并为发现下一代治疗药物指明新方向。
几十年来,精确重现人类蛋白质的形态和结构,一直是研究人员的目标。过去,要追求这个目标是很困难的,需要昂贵且缓慢的实验,如X射线晶体学和核磁共振光谱学实验。而且,即使实验取得进展,也只能得到单个蛋白质某些结构。
计算机专家一直致力于加快实现该目标的速度。借助人工智能和深度学习算法,使用实验解决的蛋白质结构数据库来训练软件程序如何根据蛋白质的氨基酸序列预测蛋白质的结构。
该研究同时使用了华盛顿大学的RoseTTAFold和DeepMind的AlphaFold工具,筛选了830万对酵母蛋白的配对多序列比对,识别出了1505种可能的相互作用,并为106个以前未识别的部分和806个尚未结构表征的部分构建了结构模型。
为了找到可以形成复合物的蛋白质,研究团队首先将所有6000种酵母蛋白质的氨基酸序列,与2026种其他真菌、4325种其他真核生物的氨基酸序列进行比较。在比较过程中,研究人员追踪这些蛋白质的进化过程,并识别出不同蛋白质中同时发生变化的序列。研究人员推断,这些蛋白质可能会形成复合物,并会逐步改变以保持它们之间的相互作用。
随后,团队使用自研的RoseTTAFold的人工智能程序以,以及此前DeepMind已开源的AlphaFold工具,尝试解决每组候选对象的3D结构。在总共830万个“候选”酵母蛋白质对中,两个人工智能程序合力识别出了1506种可能发生相互作用的蛋白质,并成功绘制出其中712个的3D结构。
研究通讯作者之一、德克萨斯大学西南医学中心生物医学信息学专家QianCong表示,这些相互作用涵盖了真核细胞的所有活动。该研究的亮点在于发现了蛋白质复合物的结构,这种复合物在细胞活动中发挥着不可替代的重要作用,如让细胞修复DNA损伤,将RNA翻译成核糖体中的蛋白质,在细胞繁殖过程中将染色体拉开,并将分子运送通过细胞膜等。
AlphaFold首席开发人员之一、DeepMind团队成员JohnJumper也对这一发现的意义给予了高度评价:“这是再现蛋白质3D结构的一个很有前途的研究实例。明确了蛋白质之间如何相互作用,生物学家就可以进一步发现复合物细胞内执行多项任务的机制。”
“这些模型为实验人员提供了可测试的假设,而且破坏这些相互作用,可能会获得干预各种疾病的新方法。”QianCong表示,这一发现为未来新靶向药物的研发提供了更多可能。
上个月,Jumper团队在bioRxiv上发布了一篇预印本论文,介绍了AlphaFold人工智能工具的新版本,名为AlphaFold-Multimer。该工具绘制出了4433种蛋白质复合物的结构,准确率达到了69%。(来源:中国科学报 辛雨)
相关论文信息:https://doi.org/10.1126/science.abm4805
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。《自然》深度:人工智能预测蛋白结构,这一革命性技术将走向何方
▎药明康德内容团队编辑
去年7月,DeepMind公司在《自然》杂志上发表了人工智能(AI)系统AlphaFold根据氨基酸序列预测蛋白质三维结构的研究。研究人员同时发布了AI系统的源代码,让这一技术能够为广大科学家和研究人员使用。自从文章发表以来,AlphaFold在生命科学领域掀起了前所未有的热潮。很多人将它称为改变游戏规则的科学突破。近日,《自然》杂志的一篇深度文章对AlphaFold对生命科学领域的变革性影响和未来进行了阐述。在今天这篇文章里,药明康德内容团队将与读者分享文章的精彩内容。点击文末“阅读全文/Readmore”,即可访问《自然》官网,阅读全文。
惊艳的成功
在2020年,AlphaFold人工智能系统在国际蛋白质结构预测竞赛(CASP)上击败其余的参会选手,精确地基于氨基酸序列,预测蛋白质的3D结构。其准确性可与使用冷冻电子显微镜(CryoEM)、核磁共振或X射线晶体学等实验技术解析的3D结构相媲美。当时,这一突破被多家媒体称为“变革生物科学和生物医学”的突破。前基因泰克(Genentech)首席执行官ArthurD.Levinson博士称这一成就为“划时代的进步”(onceinagenerationadvance)。
在2021年7月,描述AlphaFold和RoseTTAFold人工智能系统的论文在《科学》和《自然》上发表,并且提供了开源的源代码和相关信息,让科学家们能够使用这些工具。一周后,DeepMind宣布,AlphaFold预测出98.5%的人类蛋白结构,以及20种模式生物(比如小鼠、果蝇和大肠杆菌)的蛋白结构,将超过36.5万个蛋白结构存放到与欧洲生物信息研究所(EMBL-EBI)合作构建的公开数据库中。这一数据库目前储存的蛋白结构已经达到了接近100万个。
而今年,DeepMind计划发布超过1亿种结构预测,这接近所有已知的蛋白数目的一半,比已经通过实验手段确定的蛋白结构数目多出几百倍!
根据DeepMind的统计,如今已经有超过40万人使用了EMBL-EBI的AlphaFold数据库。它对生命科学的哪些领域产生了重大影响?
图片来源:123RF
解析蛋白结构
AlphaFold解析蛋白结构的能力已经让很多生物学家们信服。只要蛋白会折叠成单一的固定三维构象,AlphaFold的预测很难被超越。斯德哥尔摩大学(StockholmUniversity)的蛋白生物信息学家ArneElofsson博士表示,“这是一个一键式的解决方案,可能提供你想要的最佳模型。”
即使在AlphaFold不太确信的地方,“它也非常善于告诉你它什么时候不起作用”,Elofsson博士说。在这种情况下,预测的结构有些像浮动的面条。这通常对应于缺乏确定构象的蛋白区域。这种内在无序的区域约占人类蛋白质组的三分之一,只有当另一种分子(如信号伙伴)存在时才可能被明确定义。
▲AlphaFold准确预测的蛋白结构(a)和不能准确预测的蛋白结构(b和c)(图片来源:参考资料[5])
AlphaFold存储到EMBL-EBI数据库中的蛋白结构也已经立刻得到了应用。伦敦大学学院的ChristineOrengo博士团队正在对其进行搜索,在未通过实验验证的情况下,发现新的蛋白类型。他们已经发现了成百上千个潜在的新蛋白家族,扩展了科学家们对蛋白形态和功能的了解。该研究团队的另一个项目是挖掘从海洋和废水中收获的DNA序列数据库,试图发现新的降解塑料的蛋白酶。利用AlphaFold快速预测成千上万蛋白的结构,研究人员希望更好地理解酶如何通过进化分解塑料,并潜在对其进行改进。
哈佛大学进化生物学家SergeyOvchinnikov博士说,将任何编码蛋白的基因序列转变为可靠结构的能力为进化研究提供了强大的工具。研究人员通常通过比较基因序列,确定物种之间的相关性。对于亲缘关系较远的基因,DNA序列比较可能无法找到进化上的亲缘关系,因为序列已经发生很大的变化。但是蛋白结构与基因序列相比变化较慢,通过比较蛋白结构,研究人员可能发现被忽视的古老关联。“这为研究蛋白的进化和生命起源开辟了一个惊人的机会。”瑞士联邦理工学院(SwissFederalInstituteofTechnology)计算生物学家PedroBeltrao博士说。
赋能科学实验
对于要确定特定蛋白详细结构的科学家来说,AlphaFold的预测不一定马上提供解决方案。然而,它提供了一个可以通过实验验证或改进的初始模型,它本身有助于理解实验数据。例如,X射线晶体学的原始数据是X射线的衍射图案。通常情况下,科学家需要对蛋白的结构进行初步猜测来解释这些图案。英国剑桥大学的结构生物学家RandyRead博士表示,以前他们需要通过拼凑公开蛋白数据库中相关蛋白的信息或使用实验方法来确定最初的蛋白模型。现在,AlphaFold的预测使科学家无需这一策略就可以解析大多数X射线衍射图案。
Read博士和其他研究人员已经利用AlphaFold从X射线数据中确定了晶体结构,这些晶体结构在没有足够的起始模型的情况下无法解析。“人们正在解析多年来一直未能解析的结构。”Read实验室的前博士后ClaudiaMillánNebot博士说,她预计将会看到大量新蛋白质结构提交到公开数据库,很大程度上是由于AlphaFold。
图片来源:123RF
专攻利用冷冻电镜捕获快速冷冻蛋白图片的实验室也能从中获益。北卡罗来纳大学教堂山分校结构生物学家和药理学家BryanRoth博士表示,有些情况下AlphaFold的模型准确地预测了G蛋白偶联受体(GPCRs)的独特特征。它们是重要的药物靶标。他说:“AlphaFold在生成第一个模型方面表现很好,然后我们用实验数据对其进行了完善,这为我们节省了时间。”
但Roth博士补充道,AlphaFold并不总是那么准确。在某些情况下,AlphaFold以很高的置信度标记了结构预测,但实验数据显示它是错误的。即使软件得到了正确的结果,它也无法模拟蛋白质与药物或其他小分子(配体)结合时的样子,这些小分子可以实质性地改变蛋白结构。
在药物发现工作中,研究人员越来越常见地使用计算对接软件来筛选数十亿个小分子,以找到可能与靶点蛋白结合的分子,这表明它们可能成为有用的药物。Roth博士现在正与加州大学旧金山分校的药物化学家BrianShoichet博士合作,比较AlphaFold的预测与实验确定的结构。
Shoichet博士说,他们将工作限制在AlphaFold的预测与实验确认的结构相吻合的蛋白质上。然而即使在这些情况下,已有的对接软件和AlphaFold也会找出不同的化合物。他的团队现在正在合成利用AlphaFold预测的结构发现的潜在药物,并在实验室中检验它们的活性。
帮助药物发现
Shoichet博士说,生物医药和生物技术公司的研究人员对AlphaFold帮助药物发现的潜力感到兴奋。2021年11月,DeepMind推出了IsoMorphicLabs,旨在将AlphaFold和其他AI工具应用于药物发现。
Schrödinger公司疗法开发负责人KarenAkinsanya博士表示,她的团队已经在利用AlphaFold结构进行虚拟筛选和候选药物的设计方面取得了一些成功。在有些情况下,AlphaFold提供的结构已经可以指导药物发现。不过,“很难说它是一种灵丹妙药,因为在一种结构上你可能做得非常好,但是这不意味着它可以类推到所有结构。“Akinsanya博士说。在药物发现方面,AlphaFold提供的结构永远不会完全取代实验获得的结构,但它们可能与实验手段相辅相成,加快药物开发的过程。
图片来源:123RF
AlphaFold的局限
虽然AlphaFold取得了飞速进展,但是科学家们表示,清楚它的局限性非常重要,尤其是现在并不专攻蛋白结构预测的研究人员也在使用它。
科学家们曾尝试使用AlphaFold推测错义突变(包括与早期乳腺癌相关的基因突变)对蛋白结构的影响,结果显示该软件尚没有预测新突变对蛋白影响的能力。
AlphaFold的团队现在正在思考如何设计一个神经网络来处理新突变。DeepMind的科学家JohnJumper博士预计这需要该网络更好地预测一个蛋白如何从未折叠状态转变为折叠状态。哥伦比亚大学计算生物学家MohammedAlQuraishi博士表示,这可能需要仅依靠在蛋白物理学方面学到的知识来预测结构的软件。他说:“我们感兴趣的一件事是,如何在不使用进化信息的情况下,从单一序列做出预测。这是一个仍然悬而未决的关键问题。”
AlphaFold的设计是用来预测单一结构,但许多蛋白具有多种构象,这对它们的功能可能很重要,而且AlphaFold预测的是孤立的蛋白结构,很多蛋白与包括DNA、RNA、脂肪分子和矿物质在内的配体结合在一起行使功能。
AlphaFold的未来
虽然AlphaFold的设计是用来预测单一结构,但是当DeepMind公布其源代码之后,科学家们很快发现了让它预测蛋白之间相互作用的方法。在AlphaFold代码公布后几天,东京大学的蛋白生物信息学家YoshitakaMoriwaki博士就发现,如果用一个长连接序列将两个蛋白序列拼接在一起,AlphaFold可以准确预测它们的相互作用。
在2021年10月,DeepMind发布了一项名为AlphaFold-Multimer的更新,这一系统经过特别训练用于识别蛋白复合体。DeepMind的团队用它来识别公开蛋白数据库中的上千种复合体,发现它能够预测大约70%的已知蛋白间相互作用。
这些工具已经在帮助研究人员发现新的结合蛋白。斯德哥尔摩大学ArneElofsson博士的团队近日在NatureCommunications上发表的论文中,利用AlphaFold与实验数据相结合,预测了65000种可能相互作用的蛋白对(proteinpairs)的结构。
这些虚拟筛选为进一步实验提供了良好的起点。“看起来好看并不意味着它是对的,”Elofsson博士说,“你需要实验数据来表明你是对的。”
华盛顿大学DavidBaker教授的团队利用AlphaFold和RoseTTAFold对酵母表达的所有蛋白对之间的相互作用进行了模拟,发现了超过100种此前不知道的相互作用。
近日,Baker教授团队在《自然》杂志上发表的论文再进一步,利用预测蛋白结构的算法,研究团队只需要知道靶点蛋白的结构信息,就能够发现与它们以高亲和力结合的迷你蛋白(miniproteins)。Baker教授表示,这一发现有望带来药物发现和分子生物学的范式改变。
AI工具不仅改变了科学家如何确定蛋白是什么样子,一些研究人员正在利用它们制造全新的蛋白。DavidBaker教授说:“深度学习正在完全改变我的课题组进行蛋白设计的方式。”在去年12月《自然》上发表的论文中,研究人员成功让AI想象和构建出前所未有的蛋白结构。
在这项研究中,研究者不再给AI系统一些已知蛋白结构的氨基酸序列进行预测,而是向它们提供一些随机的序列,并且会向其中引入一些突变,直到AI的神经网络确定能够将这些序列折叠成稳定的结构为止。
研究人员在细菌中表达了129种AI系统想象出的蛋白,并且发现大约五分之一的蛋白会折叠成AI预测的结构。“这首次证明了使用这些神经网络可以用来设计蛋白。”Baker博士说。现在,他的团队正在使用这一策略设计有用的蛋白,比如能够催化特定化学反应的蛋白催化剂。科学家们只需要给出负责特定催化功能的氨基酸,然后让AI想象出其它部分。
AlphaFold革命将走向何方,即便是这一领域的专家也觉得难以预测。Baker教授表示,领域的变化如此之快,预计不到一年的时间,我们就会看到使用这些工具获得的新重大突破。”
EMBL-EBI的计算生物学家JanetThornton博士则认为AlphaFold最大的影响之一是说服生物学家对计算和理论方法提供的洞见更加开放。“对我来说,革命就是心态的改变。”
参考资料:
[2]Bryantetal.,(2022).Improvedpredictionofprotein-proteininteractions
免责声明:药明康德内容团队专注介绍全球生物医药健康研究进展。本文仅作信息交流之目的,文中观点不代表药明康德立场,亦不代表药明康德支持或反对文中观点。本文也不是治疗方案推荐。如需获得治疗方案指导,请前往正规医院就诊。
版权说明:本文来自药明康德内容团队,欢迎个人转发至朋友圈,谢绝媒体或机构未经授权以任何形式转载至其他平台。转载授权请在「药明康德」微信公众号回复“转载”,获取转载须知。
分享,点赞,在看,聚焦全球生物医药健康创新
人工智能进一步破解蛋白质复合物结构
在蛋白质结构预测上,人工智能革命仍在继续。一年前,软件程序首次成功地模拟了单个蛋白质的3D形状。今年夏天,研究人员利用人工智能程序编制了一个近乎完整的人类蛋白质结构目录。现在,美国研究人员更进一步使用人工智能技术确定了不同蛋白质之间可能的相互作用,以及由这种相互作用产生的“复合体”是什么样子的。相关研究结果发表于《科学》。
斯坦福大学系统生物学家MichaelSnyder表示,这项新发现会促进细胞生物学领域产生一系列新观点,并为发现下一代治疗药物指明新方向。
几十年来,精确重现人类蛋白质的形态和结构,一直是研究人员的目标。过去,要追求这个目标很困难,需要昂贵且缓慢的实验,如X射线晶体学和核磁共振光谱学实验。即使实验取得进展,也只能得到单个蛋白质的某些结构。
计算机专家一直致力于加快实现该目标。他们借助人工智能和深度学习算法,使用蛋白质结构数据库来训练软件程序根据蛋白质的氨基酸序列预测蛋白质的结构。
该研究同时使用了华盛顿大学的RoseTTAFold和DeepMind的AlphaFold工具,筛选了830万对酵母蛋白的配对多序列比对,识别出了1505种可能的相互作用,并为106个以前未识别的部分和806个尚未结构表征的部分构建了结构模型。
为了找到可以形成复合物的蛋白质,研究团队首先将所有6000种酵母蛋白质的氨基酸序列,与2026种其他真菌、4325种其他真核生物的氨基酸序列进行比较。在比较过程中,研究人员追踪了这些蛋白质的进化过程,并识别出不同蛋白质中同时发生变化的序列。研究人员推断,这些蛋白质可能会形成复合物,并会逐步改变以保持它们之间的相互作用。
随后,团队尝试揭示每组候选对象的3D结构。在共830万个“候选”酵母蛋白质对中,两个人工智能程序合力识别出了1506种可能发生相互作用的蛋白质,并成功绘制出其中712个的3D结构。
研究通讯作者之一、得克萨斯大学西南医学中心生物医学信息学专家QianCong表示,这些相互作用涵盖了真核细胞的所有活动。该研究的亮点在于发现了蛋白质复合物的结构,这种复合物在细胞活动中发挥着不可替代的重要作用,如让细胞修复DNA损伤等。这一发现为未来新靶向药物的研发提供了更多可能。
AlphaFold首席开发人员之一、DeepMind团队成员JohnJumper也对此给予了高度评价:“这是再现蛋白质3D结构的一个很有前途的研究实例。明确了蛋白质之间如何相互作用,生物学家就可以进一步发现复合物细胞内执行多项任务的机制。”
上个月,Jumper团队在bioRxiv上发布了一篇论文,介绍了AlphaFold人工智能的新版本,名为AlphaFold-Multimer。该工具绘制出了4433种蛋白质复合物的结构,准确率达到69%。(辛雨)
[责编:赵宇豪]AI预测超过2亿个蛋白质结构
科技日报北京7月31日电(记者刘霞)据英国《新科学家》杂志网站近日报道,总部位于英国的人工智能公司“深度思维”宣布,将公布超2亿个蛋白质的结构。该公司在短短18个月内,凭借“阿尔法折叠”算法,预测了迄今被编目的几乎所有蛋白质的结构,破解了生物学领域最重大的挑战之一,将助力应对抗生素耐药性、加速药物开发并彻底改变基础科学。
几十年来,根据氨基酸序列确定蛋白质形状一直是生物学领域的一大难题。2020年底,“深度思维”宣布,该公司的“阿尔法折叠”算法能准确预测折叠蛋白质的结构;2021年中,该人工智能已经能绘制人体内98.5%的蛋白质。近日,该公司宣布将公布超2亿个蛋白质的结构,几乎所有这些蛋白质都被编入全球公认的蛋白质研究库UniProt。
“深度思维”也在与欧洲分子生物学实验室下属欧洲生物信息学研究所合作,创建一个可搜索数据库“阿尔法折叠蛋白结构数据库”,研究人员可轻松、自由地访问相关信息,使搜寻蛋白质结构变得几乎和网络搜索工具一样简单。
很多科学家正在利用“阿尔法折叠”推进多个领域的研究,如牛津大学的马特・希金斯等人正在研究一种他们认为是中断疟疾寄生虫生命周期的关键蛋白质,希望研制出有效的疟疾疫苗;也有科学家用其设计新酶来分解塑料垃圾,并进一步了解使细菌对抗生素产生耐药性的蛋白质。
伦敦帝国理工学院的基思・威廉姆森表示,“阿尔法折叠”改变了生物学研究,但仍存在一些问题,如它无法提取任意氨基酸序列,并精确模拟它们的折叠方式,也无法揭示蛋白质之间复杂的相互作用,另外,其在准确性方面还有待改进。
“深度思维”公司表示,目前正致力于提高该工具的准确性,以进一步了解蛋白质如何生成以及细胞如何工作。