蛋白质:人工智能破解生物学最大谜团之一的意义所在
蛋白质:人工智能破解生物学最大谜团之一的意义所在2020年12月4日图像来源,CASP/DEEPMIND/VTAGLIABRACCIDTOMCHICK,UTSOUTHWESTE图像加注文字,DeepMind预测的军团菌病细菌的蛋白质模型
半个世纪以来,预测一种蛋白质如何折叠成其特有的三维形状一直困惑着科学家,也是生物学的重大挑战之一。但专家们宣布,这个生物界最大谜团之一现在基本上已经被人工智能AI破解。总部在伦敦的英国人工智能公司DeepMind(深度思考)称,他们“基本上解开了这一难题”。更好地理解和预测蛋白质形状对未来新药的开发起到关键作用。谷歌旗下的DeepMind所取得的科技进步预期有望加速对包括新冠在内等一系列疾病的研究。一些来自美国的独立科学家表示,DeepMind系统对蛋白质形状预测的准确性可以跟那些昂贵和耗时的实验室方法相媲美。加利福尼亚大学戴维斯分校的克雷什塔夫维奇博士(AndriyKryshtafovych)是科学评审团成员之一,他形容DeepMind取得的这一成就“非常出色”。克雷什塔夫维奇博士表示,快速和准确地弄清蛋白质的形状有着彻底改变生命科学的潜能。“看图说话”人工智能成预测失智症能手观点:当人工智慧碰上医疗科学人工智能AI可帮助人类发挥“群体智慧”AlphaGo击败中国世界围棋冠军柯洁什么是蛋白质形状?图像来源,GettyImages图像加注文字,电脑上显示的是与受体相结合的蛋白质
蛋白质存在于所有生物体中,是细胞生存的基础。它们在生命必不可少的化学过程中发挥着核心作用。蛋白质由氨基酸按一定顺序结合形成的多肽链组成,它们以无数方式折叠成各种精致形状,而这是它们在身体中发挥重要角色的关键所在。许多疾病都与蛋白质所扮演的角色有关,比如,它们可以成为催发化学反应的酶、抗击疾病的抗体或是作为化学信使的荷尔蒙胰岛素等。美国马里兰大学的莫尔特博士(DrJohnMoult)是科学评审团的主席。他解释说,这些蛋白质分子哪怕是微小的重新组合排列都会对人们的健康产生灾难性的影响。因此,要了解疾病和找到新治疗手段就要研究蛋白质。莫尔特进一步解释,仅人类蛋白质就有成千上万种,其他物种的蛋白质更是多达几十亿,包括细菌和病毒的蛋白质。而目前人类只是试图破解一种蛋白质的形状就需要数年的时间和昂贵的仪器设备。预测竞赛1972年,美国生物学家克里斯蒂安·安芬森(ChristianAnfinsen)曾因为对氨基酸序列与生物活性构象之间关联的研究获得诺贝尔奖。安芬森认为,应该有可能根据蛋白质的组成成份氨基酸的序列来确定蛋白质的形状。自那以后,每两年全球20多个国家的几十个研究团队都会尝试让电脑通过氨基酸序列来预测大约100种蛋白质的形状。与此同时,生物学家们在实验室中则使用诸如X射线晶体学(X-raycrystallography)和核磁共振光谱法(NMRspectroscopy)这样的传统技术确定蛋白质的三维结构,以了解蛋白质分子中每一原子的相对位置。之后,由科学家组成的专门CASP小组(相当于全球蛋白质结构预测竞赛评审团,theCommunityWideExperimentontheCriticalAssessmentofTechniquesforProteinStructurePrediction)对这些团队用电脑所预测的蛋白质三维结构与使用实验室方法得出的三维结构结果进行比较。CASP评审小组使用从0-100的测量方法对各团队预测结果的准确性进行对比。DeepMind的人工智能AlphaFold获得了90分,与实验室预测结果相当。AI学习速度惊人图像来源,GettyImages图像加注文字,新冠病毒独特的刺突蛋白质(红色部分)
在最新一轮预测结果中(Casp-14),AlphaFold所预测的三分之二蛋白质形状准确性与实验室结果一致,另外一些预测结果虽然得分也很高,但准确性没有达到相同水平。AlphaFold使用深度学习算法,来学习和研究全球数据库中所保存的已知蛋白质的三维形状。这些折叠蛋白质的结构以空间图的方式呈现。BBC科学事务记者布里格斯(HelenBriggs)表示,AI的学习速度惊人,它用几天的时间就能达到实验室几十年的研究水平。用途和意义明确蛋白质的三维结构对开发新药以及了解包括癌症、失智症以及传染性疾病至关重要。以新冠为例,科学家一直在试图研究新冠病毒表面的刺突蛋白是如何与人类细胞中的受体相互作用的。伦敦大学学院的马丁教授告诉BBC记者,了解蛋白质序列如何折叠成三维形状其实是生物学最基本的问题之一。他解释说,蛋白质的功能完全取决于它的三维结构形状,而蛋白质功能则关系着我们健康与疾病的一切。因此,了解了蛋白质的三维结构有助于人们设计新药、防治疾病,无论是遗传疾病还是感染疾病。生物学最大谜团之一欧洲生物信息研究所桑顿教授(ProfDameJanetThornton)表示,蛋白质折叠成独一无二的美丽三维结构堪称是生物学上最大的谜团之一。她解释说,如果能更好地了解和预测蛋白质结构就意味着人类将能更好地了解生命、进化以及疾病和健康等问题。接下来,更多的科学家希望能检测这些数据以确定AI方法到底有多准确、多细致。目前,人类对蛋白质的知识仍存在缺口,包括多种蛋白质是如何组合到一起的,以及蛋白质如何与其他分子,例如脱氧核糖核酸(DNA)和核糖核酸(RNA)相互互动。克雷什塔夫维奇博士表示,现在基本上解决了单一蛋白质的结构问题。它为未来找到蛋白质复合体结构形状的新方法打开了一道大门。正是这些众多蛋白质复合体的共同作用才形成了生命的主要机制以及其他功能。人工智能成功预测蛋白质相互作用
美国科学家主导的国际科研团队在最新一期《科学》杂志撰文指出,他们利用人工智能和进化分析,绘制出了真核生物的蛋白质之间相互作用的3D模型,首次确定了100多个可能的蛋白质复合物,并为700多个蛋白质复合物提供了结构模型,深入研究蛋白质相互作用有望催生新的药物。
研究负责人之一、美国西南大学人类发育与发展中心助理教授丛前(音译)称,研究结果代表了结构生物学新时代的重大进步。
丛前解释说,蛋白质通常成对或成组工作,形成复合物,以完成生物体存活所需的任务。虽然科学家已经对其中一些相互作用开展了深入研究,但许多仍是未解之谜。了解蛋白质之间所有的相互作用将揭示生物学的许多基本方面,并为新药研发提供参考。
但半个世纪以来,鉴于许多蛋白质结构的不确定性,科学家们很难了解这些相互作用。2020年和2021年,深度思维公司和华盛顿大学戴维·贝克实验室独立发布了两种人工智能技术“阿尔法折叠”和RoseTTAFold,它们使用不同的策略预测蛋白质结构。
在最新研究中,丛前等人通过对许多酵母蛋白复合物建模,扩展了人工智能结构预测工具箱。为了找到可能相互作用的蛋白质,科学家们首先搜索相关真菌的基因组,寻找发生突变的基因,然后使用上述两种人工智能技术来确定这些蛋白质是否可以3D结构结合在一起。
他们确定了1505种可能的蛋白质复合物,其中699个结构已被表征,验证了其方法的实用性;另外700个复合物目前获得的数据有限,剩下106个从未被研究过。为更好地理解这些很少被描述或未知的复合物,团队研究了类似的蛋白质,并根据新发现的蛋白质与此前已知蛋白质的相互作用,确定了新发现蛋白质的作用。