博舍

AI预测出几乎所有蛋白质的结构 人工智能蛋白质结构预测方法

AI预测出几乎所有蛋白质的结构

蛋白质是生命的基石,由氨基酸链组成,并折叠成复杂的形状。蛋白质根据储存在DNA中的指令产生复杂的生物分子,它们执行着至关重要的细胞任务,并完成各种机体功能。

一些蛋白质是有益的,例如那些参与消化食物的蛋白质;而另一些则是有害的,例如那些参与肿瘤生长的蛋白质。它们各自都有着非常复杂的形状和结构。由于蛋白质的形状与其功能密切相关,因此,了解蛋白质的结构可以更好地了解其作用和工作原理,这也是解决许多生命科学问题的关键,例如为疾病设计新的疗法或疫苗,或解决粮食安全问题和环境污染问题等。2020年11月,Google旗下人工智能团队DeepMind宣布开发出一个人工智能驱动的蛋白质折叠模型,可以使用算法快速预测蛋白质结构,从而解决了生物学领域50年来的重大难题,即蛋白质如何折叠。这意味着,曾经分子生物学家需要花费数年实验来破译的蛋白质结构,AlphaFold只需在几分钟内就能完成。这一突破性的进步证明了人工智能对科学发现的影响。2021年,DeepMind和欧洲分子生物学实验室(EMBL)旗下欧洲生物信息学研究所(EBI)在《Nature》上发布了由AlphaFold预测的蛋白结构数据库,涵盖了人类和20种常用模式生物的35万个蛋白质结构,并且对98.5%的人类蛋白质结构进行了准确预测。

而且,AlphaFold还入选《Science》2021年度科学突破榜首。不过,上述突破仍是已知约200亿种蛋白质中的一小部分。当地时间7月28日,DeepMind和EMBL-EBI联合宣布,AlphaFold揭示出蛋白质“宇宙”的结构——已预测出100万个物种超过2亿个蛋白质的结构,几乎涵盖了地球上所有已知蛋白质。并且,正在加速几乎所有生物学领域的研究。 

同一天,《Nature》新闻也对此进行了报道。

从今天开始,确定已知的几乎所有蛋白质的结构将变得像使用搜索引擎一样简单。

这些蛋白质“宇宙”的数据将在DeepMind和EMBL-EBI联合建立的数据库中免费提供。该团队希望这一突破性的资源将有助于加速全球科学研究和发现,其他团队可以从AlphaFold上取得的进展中学习和开发,以创造进一步的突破。最新公布的2.14亿个蛋白质结构是基于另一个名为UNIPROT的数据库中的序列。巴塞罗那JosepCarreras白血病研究所的计算生物学家EduardPortaPardo表示,科学家很可能已经对其中一些蛋白质的形状有了概念,因为它们在实验结构的数据库中被涵盖,或者与这类数据库中的其他蛋白质相似。根据EMBL-EBI的说法,在超过2.14亿个预测中,大约35%被认为是高度准确的,这意味着它们与实验确定的结构一样好;另外45%的预测被认为可以在许多应用中使用。许多AlphaFold预测的结构足够好,可以在某些应用中取代实验结构。或者,研究人员可以使用AlphaFold预测来验证和理解实验数据。不好的预测结果往往是显而易见的,其中一些是由蛋白质本身的内在无序性造成的,这意味着它没有明确的形状。DeepMind的创始人兼首席执行官DemisHassabis在发布的声明中表示,从本质上讲,最新公布的预测已经涵盖了整个蛋白质世界,包括动物、植物、细菌、真菌和其他生物体的预测结构。这一进展为AlphaFold在可持续性、粮食安全和被忽视的疾病等重要问题产生的影响开辟了巨大的新机会。

《科学》公布年度十大突破:人工智能预测蛋白质结构等入选

人工智能预测了两种蛋白质如何形成参与酵母DNA修复的复合体。本文图片科技日报

一名研究人员记录了墨西哥奇基维特洞穴中沉积物样本的位置。

为了产生美国国家点火装置的聚变反应,192束激光束汇聚在一个微小的燃料芯块周围。

莫奈拉韦将未接种新冠疫苗的高危人群因病住院或死亡的风险降低了30%。

研究人员使用MDMA治疗创伤后应激障碍。

艺术家描绘的单克隆抗体(红色和蓝色)攻击新冠病毒(紫色)的概念图。

地震波显示火星有一层薄薄的地壳、浅层的地幔和一个异常大的液体核心。

美国缪子反常磁矩实验自2018年以来一直在费米国家加速器实验室获取数据。

来自CRISPR注射的引导RNA(蓝色)将DNA切割酶(白色)引导至其目标(橙色)。

一只老鼠胚胎在一个旋转的罐子里生长。这可帮研究人员了解人类发育的早期阶段。

北京时间12月17日,《科学》网站公布了2021年度科学突破评选结果。让我们一起来看看今年科学界有哪些重大发现。

1.人工智能预测蛋白质结构

今年7月,世界知名人工智能团队深度思维宣布,它利用AI智能软件程序——阿尔法折叠预测了人类表达的几乎所有蛋白质的结构,以及其他20种生物的几乎完整的蛋白质组。AI预测蛋白质结构将带来广泛应用,提供对基础生物学的见解并揭示潜在的药物靶点。11月,德国和美国的研究人员利用阿尔法折叠2和冷冻电镜绘制了核孔复合物的结构图。8月,中国研究人员使用阿尔法折叠2绘制了近200种与DNA结合的蛋白质结构图。现在,科学家正使用阿尔法折叠2来模拟奥密克戎变体刺突蛋白突变的影响,通过在蛋白质中插入更大的氨基酸,突变改变了它的形状,这也许足以阻止抗体与其结合并中和病毒。

2.解锁古老泥土DNA宝库

最近,科学家们从洞穴地面的土壤中解锁了一个更大的古代DNA宝库。研究人员使用这种“泥土DNA”来重建世界各地穴居人的身份。在西班牙的Estatuas洞穴,核DNA揭示了8万至11.3万年前生活在那里的人类的遗传特征和性别,并表明尼安德特人的一个谱系在10万年前结束的冰川期之后取代了其他几个谱系。在美国佐治亚州Satsurblia洞穴有2.5万年历史的土壤中,科学家们发现了来自以前未知的尼安德特人系的女性人类基因组,以及野牛和现已灭绝的狼的遗传痕迹。通过将墨西哥奇基维特洞穴中1.2万年前的黑熊DNA与现代熊DNA进行比较,科学家们发现,在最后一个冰河时代之后,洞中黑熊的后代向北迁徙至阿拉斯加。

3.实现历史性核聚变突破

8月,美国国家点火装置(NIF)产生了一种聚变反应,这种反应产生的能量比点燃它所需的激光能量更多。NIF使用来自世界上最高能量激光的脉冲来压缩胡椒粒大小的氢同位素氘和氚胶囊。这种方法每次发射产生170千焦的聚变能量,这远低于1.9兆焦的激光输入,但8月8日记录显示,该能量飙升至1.35兆焦耳。研究人员认为这是燃烧等离子体的结果,这意味着聚变反应产生了足够的热量,可以像火焰一样通过压缩燃料传播。

4.抗新冠强效药出现

数据显示,美国默克公司的抗病毒药物莫奈拉韦可将未接种疫苗的高危人群的住院或死亡风险降低30%。如果在出现症状的3天内开始服用,辉瑞公司的抗病毒药物PF-07321332将使住院率降低89%。科学家们强调,抗病毒药物不能取代疫苗接种,但它们仍然至关重要。如果新的奥密克戎变体导致突破性感染激增,它们的重要性将更加突出。

5.摇头丸减轻创伤后应激障碍症状

一项多中心、随机、对照试验发现,3,4-亚甲基二氧基甲基苯丙胺(MDMA),也就是常说的“摇头丸”,显著减轻了创伤后应激障碍(PTSD)患者的症状。76名受试者,部分接受了3次MDMA治疗,部分接受了安慰剂指导治疗课程。2个月后,67%的接受MDMA治疗的患者不再有PTSD症状,而安慰剂组则仅有32%。

6.单克隆抗体治疗传染性疾病

今年单克隆抗体 (mAb)开始在对抗新冠病毒和其他威胁生命的病原体,包括呼吸道合胞病毒(RSV)、HIV和疟疾寄生虫等方面显现出效果。到今年年底,FDA已授予3种用于治疗新冠病毒的单克隆抗体紧急使用授权。科学家还正在开发针对流感、寨卡病毒和巨细胞病毒的单克隆抗体。两个旨在预防所有婴儿呼吸道合胞病毒的候选药物被寄予厚望。单克隆抗体或将成为治疗传染病武器库中的“标配”。

7.“洞察”号首次揭示火星内部结构

自“扎根”火星以来,美国国家航空航天局的“洞察”号火星探测器在其着陆点测量了大约733次地震。科学家基于其中35次地震的数据,揭示了火星的内部结构,估计了火星地核的大小、地幔的结构和地壳的厚度。这也是科学家第一次使用地震数据来探测地球以外行星的内部,这是了解火星形成和热演化的重要一步。

8.粒子物理学的标准模型出现“裂缝”

4月7日,美国费米实验室进行的缪子反常磁矩实验显示,缪子的行为与标准模型理论预测不相符。研究报告称,巨大的、不稳定的类电子粒子——缪子,比最初预测的更具磁性。此外,费米实验室里的质子加速器也可以大量制造缪子。研究人员现在正在仔细检查今年的计算结果,如果成立,而且理论和实验结果之间的差异持续存在,可能将标志着有50年历史的粒子物理标准模型的预言失败,或打开物理学变革之门。

9.CRISPR基因编辑疗法对人类疗效首次证明

基因编辑工具CRISPR于2020年首次显现出或可治愈镰状细胞病和β—地中海贫血症患者。今年,科学家们更进一步,直接在人体内部署CRISPR-Cas9。在小型研究中,该策略减少了一种有毒的肝脏蛋白质,并适度改善了遗传性失明患者的视力。6月26日,美国Intellia医药公司和再生元公司科学家在6名患有一种名为转甲状腺素淀粉样变性病的罕见疾病患者身上测试了他们的治疗方法。结果显示,所有参与者的畸形蛋白质水平均下降,其中两名接受高剂量注射的人的蛋白质水平平均下降了87%。

10.体外胚胎培养为早期发育研究打开新窗户

通常,老鼠胚胎在母鼠体外生长的时间为3到4天。但在3月,一个团队报告了一个将这一期限延长到11天的方案。该研究进展有望为子宫外孕育人类铺平道路。此外,还有科学家设计了被称为“胚泡”的关键胚胎阶段的替代品。一个研究小组从人类胚胎干细胞中复制了胚泡,并诱导了多能干细胞(IPS)。另一项研究发现,转化为诱导性多能性细胞的皮肤细胞会产生囊胚状结构。这些人造胚泡并不是真正的胚胎,但其中一些可作为一种有指导意义的、争议较少的替代方案。5月,国际干细胞学会宣布放宽人类胚胎培养“14天规则”,进一步提振了该领域的研究。

AIR学术|许锦波:基于深度学习的蛋白质结构预测

蛋白质在生物体中的地位举足轻重,发挥着不可替代的功能。蛋白质的结构和功能联系紧密,如何预测蛋白质的结构?这是我们想探索的终极问题。

——许锦波

活动概况

6月10日上午,第五期AIR学术沙龙在清华大学智能产业研究院(AIR)图灵报告厅如期展开。本期活动荣幸地邀请到了美国芝加哥丰田计算技术研究所教授许锦波教授为我们线上做题为《基于深度学习的蛋白质结构预测》的报告。

主持人马维英介绍许锦波教授

本次讲座由清华大学智能产业研究院(AIR)惠妍讲席教授、首席科学家马维英博士主持,现场观众认真听取报告并与许锦波教授进行了热烈的研讨与思想碰撞,贡献了一场火花四射的思想盛宴。

张亚勤院长向许锦波教授提问

同时,本次讲座也在清华大学智能产业研究院(AIR)微信视频号、哔哩哔哩双平台同步直播。本次活动汇聚了来自清华大学、南洋理工大学、北京大学、中科院、北京航空航天大学、北京协和医学院、华东理工大学,以及智源人工智能研究院、百度研究院、钟鼎资本、NVIDIA、字节跳动等学校及企业单位的专家学者、算法工程师等的参与,全网观看直播人数2100人次。

讲者介绍

许锦波博士现任美国芝加哥丰田计算技术研究所教授,《Bioinformatics》以及《JournalofComputationalBiology》编委;毕业于中国科学技术大学计算机系,中国科学院计算技术研究所和加拿大滑铁卢大学,并在美国麻省理工学院数学系和人工智能实验室接受博士后训练。许博士的研究兴趣包括人工智能和机器学习、优化算法和计算生物学。他于2016年首次证明了深度学习可以大大提高蛋白质结构预测的性能,引领了人工智能在蛋白质结构预测领域的突破。许博士获得了美国斯隆研究奖,美国自然科学基金早期职业奖,《PLoSComputationalBiology》创新突破奖,国际计算生物学顶级会议RECOMB最佳论文奖和时间检验奖(Test-of-TimeAward);并多次接受英美杂志如《纽约时报》《经济学人》《财富》《自然》和《科学》的采访。许博士也是2021年未来科学大奖的主讲嘉宾和2022年在瑞典的诺贝尔论坛特邀嘉宾。

报告内容

蛋白质在生物体中的地位举足轻重,发挥着不可替代的功能。蛋白质的结构和功能联系紧密,如何预测蛋白质的结构?这是我们想探索的终极问题。几十年来,蛋白质的结构预测领域从传统的物理和统计方法,走向最新的机器学习乃至深度学习算法,这一个个结构的神秘面纱正在逐步被我们揭开。

蛋白质是由一个个氨基酸按某种特定的顺序组成的。蛋白质序列经过折叠在空间中堆叠成三维几何体。各种氨基酸共有的结构是主链(Backbone),它们的侧链(SideChain)具有不同的结构。在蛋白质中一个氨基酸也被称为残基(Residue)。不同氨基酸的侧链往往具有不同的物理化学特性,例如亲水性、疏水性、大小不同,这些特性会影响氨基酸之间的组合关系,进而影响蛋白质结构。

预测蛋白质的结构有助于我们在原子层面了解蛋白质的功能。几十年来,人们一直在尝试着解开蛋白质结构的谜团,相应的算法也在不断更新。主要可以分为基于模板的和不基于模板的两类。但是挑战依然存在,因为一个蛋白质有可能会有上千个氨基酸,每个氨基酸有几十个原子。即使只考虑骨架,蛋白质结构也会有很大的自由度。机器学习算法的挑战在于预测新的折叠结构,也就是在训练数据里根本不存在的结构。深度学习需要大量训练数据,但是我们并没有那么多的实验技术解出来的蛋白结构。比如膜蛋白,对人体非常重要,但是相关实验结构数据却非常少。到2015年,不基于模板的预测成功率还是非常低。

以前的方法从物理+统计的角度来解决这个问题。很流行的一种方法叫做片段拼接(fragmentassembly),对一个蛋白序列,找不到同源结构的时候,可以把它分割成很多小的序列片段。每个小片段可以到结构数据库里去找相似的结构片段,然后通过采样把这些结构片段拼接起来形成一个完整的结构,最后计算能量函数去评估它的好坏。但是这种方法的问题在于大规模采样需要非常多的计算资源,一个很小的蛋白都要采样10万次,并且成功率很低。

我们最近一些工作则提出不通过采样,而是基于预测氨基酸之间的关系去预测结构的想法。这种方法之前在九十年代就被提出,但是困于没有准确预测氨基酸之间关系的模型,一直没有广泛运用,直到2010年以来,才又受到关注。这种思想的背后是先用距离矩阵(distancematrix)和接触矩阵(contactmatrix)去表示氨基酸之间的关系,之后的工作就是去准确地预测出接触矩阵。第一种成功的方法是基于一种共进化的概念。也就是当两个氨基酸离得近时,他们可能会共同突变和进化。

早期人们通过全局性的统计方法来预测共进化关系,但是这种方法局限性在于需要大量不冗余的同源蛋白序列。另一种方法是利用监督式学习,假设有一个蛋白质序列,要预测第i和第j个氨基酸有没有关系,可以把这两点的特征提取出来,用神经网络,SVM或者RandomForest去预测。这些方法在测试数据上一直不够精准。在2012年也有别的组尝试把机器学习换成深度学习,但是简单的替换对预测性能还是没有提升。

许教授接着提到自己在2016开始的工作,他们把接触矩阵看成是一个图片,每一个原子对都是看做一个像素(pixel),这样的话就可以同时预测所有pixel的label。这种方法借鉴了计算机视觉里语义分割的思路,并且使用了深度残差网络(ResNet)进行建模。

首先通过序列比对,找到同源序列,然后计算氨基酸的保守性,氨基酸之间的互惠信息(mutualinformation)和共进化信息。将这些一维和二维信息合并输入到残差网络中,就可以进行接触矩阵的预测。在这个架构图中二维信息要比一维信息重要的多,所以用的二维残差模块更多。在CASP12的比赛中,许教授团队用未完成的代码也取得了第一名的成绩。

排在后面的如iFold也有用深度学习的,但是相对较浅,也没有残差模块,而许教授的残差模块堆叠到了60层。仅仅用这个接触矩阵的排名还不能说明预测出来的接触矩阵对3D建模有用,通过CASP评委公布的信息,发现许教授组的算法RaptorX对3D建模起到了非常正向的作用,而第二三名的算法却起到了负作用。

在CASP比赛之后,团队完成了完整版代码库,并且将文章发表在了PLOSComputationalBiology上。后续基于全卷积的残差神经网络的工作也陆续发表在2017年的CellSystems,(膜蛋白预测相关工作)和2018年的NAR(两个蛋白之间的接触矩阵的预测相关工作)上。在CASP和CAMEO比赛数据集上,都取得了不错的效果,特别是在长程(longrange)接触的预测精度上更是远远好于CCMpred和metaPSICOV。

而且对后续3D建模的准确率提升也非常大。一个有趣的例子是在5f5pH测试蛋白上,许教授团队的算法在RMSD指标上远好于基于同源数据库预测的算法,原因在于其他服务器是通过搜索同源蛋白做的预测,然而搜索到的蛋白3thfA只有一部分相似,这就误导了其他服务器。

接着,许教授提到最近十年中CASP竞赛的一些变化,从CAPSP10到CASP13,最好的算法产生的结果在逐步提升,这主要是由于研究人员们提出了更加可靠的算法。

在3D建模方面,CASP13中Deepmind基于许教授的思想开发出了AlphaFold,效果好于其他的软件,但是在比赛之后,改进版RaptorX却能够达到超越AlphaFold的性能。

最近,许教授团队研究了在没有共进化信息的时候只用深度学习预测蛋白质结构能够达到的极限,发现了深度学习也比一般算法要好很多。并且,在人工设计的新蛋白方面,深度学习也可以把形状预测对,尽管精度不是很高,这也说明共进化信息不是深度学习中必须要用的特征。

最后,许教授展望未来蛋白质结构预测方面的进展,提到很多组都有很多新的进展。比如Facebook最早提出可以更好地利用序列和结构信息,用Transformer进行无监督学习,而Deepmind更是做到了端到端的优化,成功通过监督学习达到了空前的效果。包括许教授团队,Deepmind,Baker在内的团队也同时在考虑引入模板信息到深度学习中去,这对某些特别大的蛋白结构预测非常重要。KentaroTomii,DongboBu等学者发现从MSA中学习序列权重对于最后的结构预测有正向作用。此外,基于最近图神经网络(GNN)的发展,用GNN进行蛋白结构模型进行优化也是许教授团队最近研究的课题。GNN跟基于分子动力学的方法的效果接近,但是比基于分子动力学的方法快很多倍。

关于模板的引入,可以发现在只用深度学习没有模板的情况下,单个domain的结构都可以预测准确,但是完整的结构却并没有做对。在只有模板没有深度学习的情况下,可以发现整个结构框架基本可以做对,但是单个domain的结构却不是很准确。而在同时结合了深度学习和模板信息后,既可以准确预测单个domain的结构,又可以成功地预测完整的三维结构。

为了更好地方便热衷于蛋白质结构预测的同学们入行,许教授最后简单介绍了CASP比赛的一些信息和最新的AlphaFold2模型自己的理解。通过CASP比赛的对比图,可以发现对于最难的蛋白,在CASP13之前基本没有提升,因为没有那么多序列让模型进行共进化分析,而真正有效的提升还是基于深度学习的方法,尤其是许教授提出的残差网络和AlphaFold2的Transformer。

可见深度学习对于结构预测起到了很大的推动作用。从图中还可以看见AlphaFold2基本在CASP14中一枝独秀。鉴于还没有公布论文和代码,许教授对于这个模型给出了自己的见解。在许教授的方法中,要去先搜集同源序列,堆在一起得到MSA,同时也找一些模版,通过MSA可以输入神经网络预测氨基酸相互作用进行共进化分析。同时,也用另一个神经网络进行预测局部结构和二级结构。最后在把这些预测的结构信息输入一个优化模块去预测三级结构。可以看见这个模型有六个模块,每一步都是独立的,都是分开来做的,后面步骤的误差没法反馈到前面的模块。

而AlphaFold2基本是一个端到端的方法,找到同源序列后输入到一个神经网络,预测两个氨基酸之间的相互关系,然后去建立一个三维模型来预测三级结构。这个模型只有三步,第一步是找同源序列,第二步是找模版,第三步是靠氨基酸之间的关系把原子坐标预测出来。这样目标就简单了,基本是端到端的预测流程,误差可以反馈到前面Transformer网络里面去,提高预测精度。当然他们的模型效果好的原因不仅仅是用了Transformer,还用了端到端的实现,还雇佣了专门的专家去搜索同源序列。因为AlphaFold2比以前的方法有非常多的改进,并且并未公开论文和代码,所以具体哪一个模块使得AlphaFold2的效果如此之好还是值得探索。

那么CASP是怎么组织的呢?参赛者分为服务器组和人工组两种,服务器组预测一个蛋白质结构只有三天时间,并且看不到其他服务器的结果。人工组则有三周时间,并且可以看到和使用所有服务器提交的结果。所以这样的话人工组可以通过简单地集成服务器组的结果来进行预测,这样的人工组的结果会比大部分服务器组好,但是没有太多的学术价值。服务器组也可以用类似的方法,也就是通过下载和集成各种各样的预测软件来提高性能。另外使用越来越大的蛋白质序列数据库也是很重要的。

在报告最后,许教授对蛋白质结构预测这个任务的发展进行了总结。经过这几年的研究者们的探索,发现深度学习对蛋白质结构预测的提升效果是有显著效果的,可以把大部分蛋白质都三维空间大致形状预测准确。而最近的Transformer模型和端到端训练的引入使得这项任务的准确性又上了一个高度。许教授还强调,在这项任务中,非常重要的思想是要对整个蛋白建模,而不是取出两三个氨基酸单独建模。通过深度学习,现在人们已经可以预测各种规模的蛋白质结构,而且模型运行速度也很快,蛋白质结构预测这个任务成为了广大研究者都可以探索的问题,很多组都可以在本地跑算法。一旦模型训练好之后,我们甚至可以在自己的笔记本上测试运行。对于想要快速入门的同学,许教授也提到在这个领域最近发表的两篇综述论文,方便同学们了解这个领域最新的进展。

最后,许教授对所有参与工作的学生和同事表示了感谢,在掌声中结束了演讲。

撰文/丁凡刘聆羽

编辑排版/刘聆羽

校对责编/黄妍

精彩视频回顾及完整版PPT下载,请点击:

AIR学术沙龙第5期|许锦波:基于深度学习的蛋白质结构预测

人工智能预测蛋白质结构(新知)

近日,人工智能企业上海天壤智能科技有限公司宣布,其自主研发的深度学习蛋白质折叠预测平台在国际蛋白质结构预测竞赛蛋白质测试集的评估中获得优异成绩,位居全球同类型团队前列。在400个氨基酸的蛋白链预测时,该预测平台仅耗时16秒。

科学家说,蛋白质是细胞中的主要功能分子,在细胞中发挥多种多样的功能。比如,作为酶发挥催化作用,参与生物体内新陈代谢的调剂作用,运输代谢物质,用于细胞骨架的形成,以及参与免疫、细胞分化、细胞凋亡等过程。作为构成生命的基本元件,破解蛋白质的功能是揭开各种生命现象的金钥匙。

据天壤创始人薛贵荣博士介绍,为了行使特定功能,蛋白质必须折叠成特定的结构,只有少数蛋白质处于天然无折叠状态但仍具有功能。蛋白质的三维结构也直接决定蛋白质的功能,一旦三维结构被破坏,蛋白质功能随之丧失。许多疾病都是由体内重要的蛋白质结构异常引起。因此,研究蛋白质结构有助于了解蛋白质的功能和作用,从而带来医疗保健、食品可持续性、创新生物技术等方面的改善,推进生命科学、药物研发、合成生物学方面的发展。

在生命科学领域,观测和解析蛋白质结构一直是个令人着迷的话题,吸引着众多科学家攻坚,但也面临着难度大、成本高、进展有限的局面。传统观测蛋白质结构的方法主要有三种:核磁共振、X射线、冷冻电镜。这些方法依赖大量试错以及昂贵的设备,每种结构的研究往往长达数年。现有的实验手段也还不足以揭示一些重要的蛋白结构,需要借助更多生物信息技术、计算生物学手段去探索。但使用普通的计算机软件来计算蛋白质结构,运算量相当惊人,连超级计算机也难以承受。为此,蛋白质结构预测成为结构生物学的重要分支,研究人员通过开发相关的人工智能算法,根据氨基酸序列来预测蛋白质的空间结构。

“从人工智能战胜围棋世界冠军,到城市交通调度,人工智能在解决复杂系统问题中显示出了惊人的智能决策能力,而蛋白质结构预测虽然是生物学课题,同时也属于复杂场景的问题,可以体现人工智能在基础科学研究中的巨大潜能,我们不愿意错过这道风景。”薛贵荣说,像这种全方位的创新项目非常珍贵,它覆盖了交叉学科的创新、行业的创新、基础科学的创新、人工智能算法和工程能力的创新。

近期的这些进展表明,将人工智能应用于蛋白质结构领域,通过预测的方式破解传统观测方法所不能解析的一些结构,且可信度比较高,十分接近事实。这种人工智能的结构预测算法,有望成为科学家的利器,加速生命科学领域的研究发展。

目前,单个蛋白质折叠预测只是一个起点,蛋白质通常以复合物的形式成对或成组发挥功能,以承担生命所需的种种功能,而许多蛋白质复合物的结构至今仍然成谜。薛贵荣认为,未来还要进一步提高人工智能算法的普适性和准确度,在揭示多个蛋白质之间的相互作用方面作出贡献,帮助人类寻找到精准的疾病治疗新方法。

《人民日报》(2021年12月27日18版)(责编:赵欣悦、袁勃)

分享让更多人看到

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇