博舍

人工智能首次成功解析蛋白质结构—新闻—科学网 人工智能首次成功解析蛋白质结构 带来的意义是

人工智能首次成功解析蛋白质结构—新闻—科学网

人工智能首次成功解析蛋白质结构您的浏览器不支持播放此视频。

 

图中蓝色为计算机预测的蛋白质结构,绿色为实验验证结果,二者相似度非常高。图片来源:DeepMind

 

生物学界最大的挑战之一——蛋白质三维结构解析如今有望被破解。谷歌旗下人工智能公司DeepMind开发的深度学习程序AlphaFold能够精确预测其三维形状。长久以来,人们需要借助实验确定完整的蛋白质结构,这些方法往往需要数月甚至数年时间。而现在,人工智能也有能力给出精确预测的计算方法,可能只要几天甚至半个小时。11月30日,在蛋白质预测结构挑战赛CASP上,AlphaFold程序在百余支队伍中脱颖而出。将深度学习与张力控制算法结合,并应用于结构和遗传数据,该深度学习网络利用目前已知的17万种解析完毕的蛋白质进行了训练。DeepMind有关研发团队表示,还将继续对AlphaFold展开训练,以便更好地解析更复杂的蛋白质结构。

 特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。 相关专题:两院院士评选2020中国/世界十大科技进展新闻

基于人工智能的多肽药物分析的子问题——蛋白质的三级结构预测的第一周学习记录

2021SC@SDUSC

文章目录前言一、蛋白质结构的研究意义二、当前研究现状三、AlphaFold的介绍1、AlphaFold出现的意义2、AlphaFold2的方法四、未来发展五、代码情况六、学习计划七、参考论文前言

  我们小组的题目是基于人工智能的多肽药物分析问题,在这个大的题目下,魏老师为我们几个同学分配了小的课题。我目前研究的方向是基于人工智能预测蛋白质的三级结构。下面我将从蛋白质结构的研究意义、当前研究现状、AlphaFold的介绍、未来发展、代码情况、未来学习计划、参考论文六个方面介绍我自己的小课题。

一、蛋白质结构的研究意义

  蛋白质是一切生命活动的基础,是生命活动的直接执行者,它参与生命的几乎所有过程。如遗传、发育、繁殖、激素调节和能量的代谢等等。揭示生物体内成千上万种蛋白质的具体功能机制等是蛋白质研究的核心内容,也是后基因组时代生命科学研究极富挑战的领域之一。  为了从根本上理解这些功能,进而理解生命的各种现象,帮助人类减少疾病,让人类生活的获得更加健康,就必须先了解蛋白质的结构,因为蛋白质的不同结构会决定它会发挥不同的功能。  在药物分析问题中,一方面蛋白质会作为受体出现。那么为了药物更好的与受体结合,所以要了解清楚受体蛋白的结构,便于药物与之更好的结合。这就好比可以将蛋白质结构可以看成是锁,那么我们的药物是钥匙。所以研究锁的形状很重要的。另一方面多肽只是短的蛋白质序列,所以在针对多肽药物分析时,探究蛋白质的结构是非常有必要的。再者探究病毒蛋白质结构有助于研发针对性药物。

二、当前研究现状

  曾经预测蛋白质结构的方法有很多,例如Multimeme算法、Rosetta算法等,但是随着AlphaFold的出现之一切都被颠覆了,AlphaFold成为了当今最火热的蛋白质结构预测方法。

三、AlphaFold的介绍1、AlphaFold出现的意义

  许多年来,生物家们通过各种手段试图解析蛋白质的结构,例如X射线晶体衍射、冷冻电镜、核磁共振等,然而生物学家们采用的技术手段都多多少少有自己的局限性。比如蛋白质结构研究的热门方法,冷冻电镜,虽然这几年它的分辨率一直提升,但是它仍然要拍摄数以万计的照片,才能完成对蛋白质结构的三维重建,这个过程要耗费大量的时间和金钱成本。因为这些限制,所以科学家们花费几十年的时间才解析出了35%的人类蛋白质结构。  为了加快蛋白质结构预测的速度,CASP这场蛋白质结构预测比赛诞生了。主办方通过比较参赛者提交的程序预测出的蛋白质结构和实验室测定出的蛋白质结构的相似性进行评分。在2018年,AlphaFold拿下了70多分,实现了里程碑式的飞跃。而2020年AlphaFold2惊人地拿下了92.4的成绩。在不久前,98.5%的人类蛋白质结构被AlphaFold2预测出来了,而且还做成了数据集,全部免费开放。在数据集中预测的所有氨基酸残基中,有58%达到可信水平,其中更有35.7%达到高置信度。而在这之前科学家们数十年的努力,只覆盖了人类蛋白质序列中17%的氨基酸残基。除了人类蛋白质组,数据集中还包括大肠杆菌、果蝇、小鼠等20个具有科研常用生物的蛋白质组数据,总计超过35万个蛋白质的结构。由于DeepMind公司与欧洲分子生物学实验室合作,于2021年7月22日在线发布了数十万个蛋白质模型,人类蛋白质组中包含高可信度三维信息的残基数量增加了一倍。

2、AlphaFold2的方法

  根据安芬森法则,我们能从蛋白质的氨基酸序列猜出这种蛋白质的结构长什么样子。但是一个典型的蛋白质分子包含了几百个氨基酸,而氨基酸在空间中的组合方式是不确定的,预测出的可能性太多了。  其实AlphaFold2就是一种用于蛋白质结构预测的机器学习算法。AlphaFold2采用的方法是将有关蛋白质结构的经验知识纳入深度学习算法。该算法还利用多序列比对形式的进化守恒信息。由此产生的蛋白质模型通常与实验确定的结构一样准确。  它主要是通过预测蛋白质中每对氨基酸之间的距离分布,以及连接它们的化学键之间的角度,然后将所有氨基酸对的测量结果汇总成2D的距离直方图。然后让卷积神经网络对这些图片进行学习,从而构建出蛋白质的3D结构。但这是一种从局部开始进行预测的方式,很有可能会忽略蛋白质结构信息的长距离依赖性。而Attention的特点刚好可以弥补这一缺陷,它是一种模仿人类注意力的网络架构,可以同时聚焦多个细节部分。这样可以使得框架预测的结果更加全面、准确。

四、未来发展

  新算法将用于预测任何已测序生物的结构化蛋白质组。此类预测可能有助于特定科学项目的设计,它们也将加速药物发现并促进生物技术应用。在不久的将来,应该探索机器学习来预测蛋白质-核酸复合物的结构,这是AlphaFold2和RoseTTAFold的一个显着盲点。PDB已经包含近10,000个蛋白质-核酸复合物条目,这些条目应该用于训练新算法。虽然预测蛋白质-DNA复合物可能是可行的,但实验解决的蛋白质-RNA复合物结构的数量仍然很少,因此训练集很小,这可能会影响此时的成功。还应开发新的机器学习工具来分析和预测蛋白质的构象变化,并解决多态组件和蛋白质纤维的结构。机器学习方法还应该能够更好地预测蛋白质功能并促进蛋白质工程和设计。

五、代码情况

AlphaFold2的开放源代码,代码地址:https://github.com/deepmind/alphafold可以在下面这个地址尝试使用AlphaFold2预测蛋白质结构https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb后面是我会参考到的代码地址:https://github.com/tensorflow/tensorflowhttps://github.com/deepmind/sonnethttps://github.com/google/jax/https://github.com/deepmind/dm-haikuhttps://github.com/soedinglab/hh-suitehttp://eddylab.org/software/hmmer/https://github.com/openmm/openmmhttps://github.com/soedinglab/MMseqs2https://github.com/refresh-bio/FAMSAhttps://www.python.org/https://github.com/numpy/numpyhttps:///www.scipy.org/https://github.com/mwaskom/seabornhttps://github.com/matplotlib/matplotlibhttps://github.com/bokeh/bokehhttps://github.com/pandas-dev/pandashttps://github.com/has2k1/plotninehttps://github.com/statsmodels/statsmodelshttps://research.google.com/colaboratoryhttps://zhanglab.dcmb.med.umich.edu/TM-align/https://github.com/schrodinger/pymol-open-source

六、学习计划

  后面我会重点学习AlphaFold的原理和代码,因为涉及到很多生物的知识和神经网络的知识,所以还会再多了解一些。

七、参考论文

1.Cramer,P.AlphaFold2andthefutureofstructuralbiology.NatStructMolBiol28,704–705(2021)文章地址:https://www.nature.com/articles/s41594-021-00650-12.Jumper,J.,Evans,R.,Pritzel,A.etal.HighlyaccurateproteinstructurepredictionwithAlphaFold.Nature596,583–589(2021)文章地址:https://www.nature.com/articles/s41586-021-03819-2

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇