博舍

人工智能破解蛋白质结构可能引发医学革命 人工智能解释蛋白质的概念是什么原理和作用

人工智能破解蛋白质结构可能引发医学革命

人工智能破解蛋白质结构可能引发医学革命保罗·林肯(PaulRincon)BBC新闻网科学事务编辑2021年7月31日图像来源,KarenArnott

图像加注文字,

到现在为止,我们只研究出人类基因组极少数蛋白质的构造

人工智能被用来预测人体产生的几乎每一种蛋白质的结构。

这一重大科研发展能够加速推进研发治疗疾病的新药物,还能用在其他许多地方。

蛋白质是所有生物有机体的组成部分,我们体内的每一个细胞都充满蛋白质。

了解蛋白质的结构和形状对医药研究的进步至关重要,但是到现在为止,我们只研究出少数蛋白质的构造。

研究人员用一个名为“AlphaFold”的人工智能软件来预测人体和其他有机体的35万种蛋白质的结构。

人类蛋白质如何组成是由我们体内的基因组决定,也就是人类细胞核里面的遗传物质DNA,能够决定大约两万种蛋白质。

“AlphaFold”的人工智能软件是谷歌旗下的DeepMind人工智能公司开发的,该公司共同创办人兼首席执行官哈萨比斯(DemisHassabis)表示,这是迄今为止人类蛋白质最完整、最准确的图像。

人工智能破解生物学最大谜团之一的意义所在新冠疫情:人工智能算法能“听咳嗽声音辨识新冠病毒”“我们认为这代表了人工智能对科学知识进展所做的最大贡献。”

他表示,这是人工智能有助于社会的最佳范例,未来还会有更多激励人心的发展。

图像来源,GettyImages

图像加注文字,

这项研究可以用来开发能够消化塑料的酵素

蛋白质由氨基酸按一定顺序结合形成的多肽链组成,它们以无数方式折叠成各种独特的三维形状,蛋白质的三维形状决定其在人体内的功能。

AlphaFold预测的35万种蛋白质结构包含了人体的两万个蛋白质组成,还有所谓的“模式生物”的蛋白质,而所谓的模式生物是在实验室中被用来进行科学研究的有机体,例如大肠杆菌、酵母、果蝇和白老鼠。

DeepMind的研究人员和欧洲分子生物学实验室(EuropeanMolecularBiologyLaboratory)的团队在《自然》期刊上发表研究报告。

试验结果显示,AlphaFold人工智能软件能够准确预测人类蛋白质的58%的氨基酸结构,另外有35.7%的蛋白质结构准确率更高,是实验室研究结果的两倍。

传统上研究蛋白质结构的方法包括X射线晶体学,低温电子显微技术等,但是用传统方法进行研究非常困难,朴茨茅斯大学(UniversityofPortsmouth)的结构生物学家马克吉汉(JohnMcGeehan)教授表示,传统方法需要大量金钱和资源。

因此,传统方法研究蛋白质结构通常是有目标的科学研究的其中一部分,在此之前从来没有任何研究项目能够系统性的研究出人体所有蛋白质的结构。

事实上,在这之前,实验室中只研究了17%的蛋白质结构。

“看图说话”人工智能成预测失智症能手人工智能AI可帮助人类发挥“群体智慧”马克吉汉教授表示,人工智能的速度非常快,从一开始研究一种蛋白质的结构需要6个月的时间,到现在只需要几分钟就好,这是传统方法做不到的。

“我们一开始给DeepMind研究团队送过去7个序列,其中两个已经有实验室研究出结构,所以等他们将结果送回来的时候我们可以对照测试其准确性。”

“我们看到AlphaFold预测出的结构,竟然和我们实验室得出的结构一模一样,坦白说实在令人震惊。”

图像来源,GettyImages

图像加注文字,

这一重大科研发展能够加速推进研发治疗疾病的新药物

欧洲分子生物学实验室的赫德(EdithHeard)教授表示,蛋白质是有机体最基本的组成部分,人工智能研究出蛋白质结构,完全改变了我们如何理解生命的运作。

这个发展结果未来的应用非常广泛,包括开发能够用于各种疾病的新的药物和治疗方法,设计或改造未来能够抵抗气候变化的农作物,创造能够消化塑料的酵素。

马克吉汉教授的研究团队已经开始用AlphaFold的数据来开发能够更快消化塑料的酵素,他表示这个人工智能软件提供的蛋白质结构预测是实验室无法做到的,为他们的项目加速了好几年的时间。

DeepMind已经和欧洲分子生物学实验室共同合作,将AlphaFold的编码和蛋白质结构预测开放给全球科研团体使用。

DeepMind的哈萨比斯计划大幅扩展数据库资料,最终要包括科学界已知的超过一亿种蛋白质的结构。

蛋白质组学概念的起源和发展

蛋白质组学的诞生和发展,离不开多学科和技术的逐渐交叉融合。这些学科技术包括(但不限于)基因组学、生物化学、分析化学、自动化、基于电磁场的精密质谱仪、信号处理、数理统计和计算机科学。近年来,分子医学、大数据技术和人工智能的发展,进一步加速推动了蛋白质组学的成长,使之在精准医疗领域展示出越来越大的应用潜力。

01蛋白质组学的华丽诞生

1994年,当27岁的博士研究生马克·威尔金斯(MarcWilkins)在地广人稀的澳大利亚尝试把蛋白质(protein)和基因组(genome)拼成一个新的英语单词蛋白质组(proteome),用以描述基因组编码的所有蛋白质,并将这一单词放在他的博士毕业论文中时,他不会想到,3年后,瑞士苏黎世联邦理工大学的皮特·詹姆斯(PeterJames)在他发表于剑桥大学《生物物理学》季刊的一篇53页的长文中借用了这个概念,并首次提出蛋白质组学(proteomics)一词,系统总结了当时已发表的对生物体内所有蛋白质种类的研究以及该类研究的进展。

蛋白质组学不是凭空诞生的一个新学科,而是基于一系列蛋白质的生物化学研究和多肽质谱的研究衍生发展而来的,所有这些相关学科的研究都被串起来,成为这一新学科的基石。

威尔金斯更不会想到蛋白质组学会受到如此广泛的关注。1997年,人类基因组计划进行得如火如荼,2001年,《科学》(Science)杂志和《自然》(Nature)杂志分别出版专刊,报道了人类基因组计划草图的完成,兴奋地宣告解读了人类生命的编码。

生命科学的中心法则清楚地表明,基因只是遗传编码,在生命活动中真正发挥作用的主要是蛋白质。

因此,在《科学》杂志报道人类基因组计划完成的专刊上,华盛顿大学的斯坦利·菲尔茨(StanleyFields)预言蛋白质组学将很快取代基因组学成为生命科学研究的焦点;

《自然》杂志的专刊则在显著版面报道了人类蛋白质组学组织(HUPO)的成立,并宣告生命科学正式进入蛋白质组学时代。因为人类基因组计划的巨大成功,蛋白质组学在诞生之初,光环熠熠,世界各国对蛋白质组学予以大量投入,工业界也热情洋溢,不可谓不华丽。

现在,回顾蛋白质组学的华丽诞生,我们感情复杂。一方面,基因组学的巨大成功让全世界认识到蛋白质组学毋庸置疑的重要性;另一方面,蛋白质组学直到今天也还没有完全摆脱基因组学的巨大成功映射出的阴影带来的困扰。例如,在相当长一段时间内(直到今天仍然存在),蛋白质组学的别名是“功能基因组学”,因而其常常被列为基因组学的一部分而存在。

02基因组学巨大成功背后的阴影

人类基因组计划是将基因按照染色体的分布承包给各个研究团队,协同开发技术,分别测序,然后拼装成全基因组。这个化整为零、逐个击破的简单思路取得的成功,是迄今为止全世界不同国家的科学家互相协作、进行超大项目研究的成功典范。

早期参与人类蛋白质组计划的研究人员萧规曹随,选择了同样的思路,将蛋白质组按照染色体分组,然后分配给世界各国的参与团队。

后来的数据表明,这个复制和迎合基因组学的思路在蛋白质组学领域并未获得同行的一致认可,也没有取得其他生命科学领域的认可。

基于染色体的蛋白质组研究确实取得了不少成果,但与巨大的资金和热情投入而急速鼓吹起来的期望值相比,这些成果微小得几乎不能被人们看到。这一段至今尚未完全结束的历程,极大地消费了人们对蛋白质组学的期望和热情。

蛋白质组学的华丽诞生在其第一个10年感受到了全球各界的热情,出现了一段时间繁荣的景象:学术界和工业界的大量投入,专业杂志接二连三地涌现,影响因子逐年升高。今天,当我们拥有了高精度质谱仪和比较完善的算法后,回顾历史,我们不得不汗颜地承认:当时很多蛋白质组学研究所产生的数据信息量是非常低的,有些甚至是经不起时间考验的。

2014年,《自然》杂志仓促地发表了两篇号称是完成了人类蛋白质组草图的论文,认为其代表了当时蛋白质组学的最好研究。这两项研究在若干种不同人缘样本中对超过17000个蛋白质进行了鉴定,给观望蛋白质组学的大众打了两针兴奋剂。

但是后来,蛋白质组研究领域的多位同行对这两篇论文中所使用的数据分析方法提出了质疑,并证明其中有些数据是错误的,从而引发了大量的后续讨论。事实上,仅仅在多种样本中鉴定到这些蛋白质的表达,而不对它们进行精确的定量,并不会产生太大的生物学价值。

换言之,仅仅让大家看到蛋白质组学在经过17年的努力后终于在蛋白质鉴定水平达到了基因组测序覆盖率的70%(暂不考虑多肽水平的覆盖率),勉强及格,只是进一步加深了大家对“蛋白质组学从属于基因组学”这一误区的认同而已。

03蛋白质组学的牛刀小试

鉴于蛋白质的复杂性和多变性,完全意义上的蛋白质组学至今仍是一个科学目标或者科学理想,因为至今无人知道一个生物体内到底有多少蛋白质。比蛋白质组学本身更加繁荣的,并令所有人毫无争议的、振奋的乃是色谱-质谱方法学的巨大进展。

色谱-质谱技术在过去的20年高速发展,越来越多的生物医学科学家的研究受益于色谱-质谱技术的发展,比如未知蛋白质的鉴定、蛋白质相互作用的鉴定、翻译后修饰的鉴定、蛋白质结构的解析、靶向蛋白质定量、蛋白质降解的研究等。有些方法比如靶向蛋白质组学,正在走向临床试验。但是严格意义上讲,这些都不是蛋白质组学的主要内涵。令人尴尬的是,虽然色谱-质谱技术取得了长足的进步,但蛋白质组学这一学科却逐渐淡出主流研究的视野。

蛋白质组学不是没有获得过大众认可的成功。比如,基于同位素标记的定量蛋白质组学可以对2~4个样本的蛋白质组进行准确定量,在进行良好的实验设计和实施后,8000个以上的蛋白质(基因产物)可以被鉴定到,并且含有准确的定量信息,进而引导新的生物学发现。虽然这些成功往往只出现在一部分拥有高超实验技巧的蛋白质组学实验室,但这已经可以让大众慢慢意识到蛋白质组学在生物研究中实实在在的强大力量,从而获得了一部分支持。实际上,跟蛋白质组学博大的内涵相比,这些成功只能算是牛刀小试。

04蛋白质组学和精准医疗

人类的几乎所有生命活动都是由人体内的蛋白质执行的。人类的健康和疾病同蛋白质息息相关,而疾病治疗的效果也取决于蛋白质机器的调控。所有熟悉生物学中心法则的大众应该没有人会质疑蛋白质在精准医疗中不可替代的作用。

蛋白质组学作为研究所有蛋白质的科学,毫无疑问将在精准医疗领域发挥最关键的作用。然而,直到最近,这些作用还只能被称为“潜力”。

蛋白质组学发展到今天,才刚刚走过21个年头。被撇在基因组巨大的身形背后,21岁的蛋白质组学常常有意无意被人遗忘,或者被认为是可有可无的“跟班”或“锦上之花”。生物学的中心法则在基因组的灿烂光环下黯然失色。

基因组学在种类众多但数量有限的遗传性单基因疾病和产前诊断中展示了毫无争议的作用后,一般被大众误解为精准医疗的主要甚至是唯一的方式。

笔者认为,对基因组学与其实际生物学功能不相称的期望,为今后基因组学在数量更多的人类复杂疾病(比如绝大部分肿瘤、代谢性疾病、心脑系统疾病等)中的临床应用的跌宕,埋下了伏笔。

近年来,越来越多的科学家开始重新思考蛋白质组学在精准医疗中的应用,并且一系列切实的蛋白质组项目正在开展。

虽然年轻的蛋白质组学已经经历了一系列盛衰荣辱,但其成长在跌宕起伏中一刻也未停止过,尤其是近5年来,已在各个技术环节取得了突破性的进展。

现在,我们已经有新技术可以对极小量的临床样本进行高通量的、快速、准确的蛋白质组学水平的定量,并且在越来越多的临床应用中展示出独特的、有效的作用,主流生命科学界和医学界的关注与日俱增,其他领域比如医疗大数据和人工智能的研究人员也展示出了极大的兴趣。

蛋白质组(Proteome)的概念最先由MarcWilkins提出,指由一个基因组(Genome),或一个细胞、组织表达的所有蛋白质(protein).蛋白质组的概念与基因组的概念有许多差别,它随着组织、甚至环境状态的不同而改变。在转录时,一个基因可以多种mRNA形式剪接,一个蛋白质组不是一个基因组的直接产物,蛋白质组中蛋白质的数目有时可以超过基因组的数目。蛋白质组学(Proteomics)处于早期“发育”状态,这个领域的专家否认它是单纯的方法学,就像基因组学一样,不是一个封闭的、概念化的稳定的知识体系,而是一个领域。

主要功能

蛋白质组学集中于动态描述基因调节,对基因表达的蛋白质水平进行定量的测定,鉴定疾病、药物对生命过程的影响,以及解释基因表达调控的机制.作为一门科学,蛋白质组研究并非从零开始,它是已有20多年历史的蛋白质(多肽)谱和基因产物图谱技术的一种延伸.多肽图谱依靠双向电泳(Two-dimensionalgelelectrophoresis,2-DE)和进一步的图象分析;而基因产物图谱依靠多种分离后的分析,如质谱技术、氨基酸组分分析等.

由于可变剪辑及RNA编辑的存在,许多基因可以表达出多种不同的蛋白质。因此,蛋白质组的复杂度要比基因组的复杂度高得多。

如果某物种的基因组全序列已经破译,并不代表该物种的蛋白质组也已破译。具体分析某个基因的蛋白质产物要综合基因组水平、转录水平和翻译水平的修饰及调控来确定。

研究内容

主要有两方面,一是结构蛋白质组学,二是功能蛋白质组学。其研究前沿大致分为三个方面:

①针对有关基因组或转录组数据库的生物体或组织细胞,建立其蛋白质组或亚蛋白质组及其蛋白质组连锁群,即组成性蛋白质组学。

②以重要生命过程或人类重大疾病为对象,进行重要生理病理体系或过程的局部蛋白质组或比较蛋白质组学。

③通过多种先进技术研究蛋白质之间的相互作用,绘制某个体系的蛋白,即相互作用蛋白质组学,又称为“细胞图谱”蛋白质组学。

此外,随着蛋白质组学研究的深入,又出现了一些新的研究方向,如亚细胞蛋白质组学、定量蛋白质组学等。蛋白质组学是系统生物学的重要研究方法.

技术原理

双向凝胶电泳技术(2-DE)

双向凝胶电泳技术与质谱技术是目前应用最为广泛的研究蛋白质组学的方法。双向凝胶电泳技术利用蛋白质的等电点和分子量差别将各种蛋白质区分开来。虽然二维凝胶电泳难以辨别低丰度蛋白,对操作要求也较高,但其通量高、分辨率和重复性好以及可与质谱联用的特点,使其成为目前最流行、可靠的蛋白质组研究手段。双向凝胶电泳技术及质谱基础的蛋白质组学研究程序为样品制备→等电聚焦→聚丙烯酰胺凝胶电泳→凝胶染色→挖取感兴趣的蛋白质点→胶内酶切→质谱分析确定肽指纹图谱或部分氨基酸序列→利用数据库确定蛋白。蛋白质组研究要求有高分辨率的蛋白质分离及准确、灵敏的质谱鉴定技术。凝胶电泳中蛋白质的着色不仅影响蛋白质分离的分辨率,同时也影响后续的质谱鉴定。蛋白质的染色可分为有机试剂染色、银染、荧光染色及同位素显色四类。

Unlu等提出了一种荧光差异显示双向电泳(F-2D-DIGE)的定量蛋白质组学分析方法。差异凝胶电泳(DIGE)是对2-DE在技术上的改进,结合了多重荧光分析的方法,在同一块胶上共同分离多个分别由不同荧光标记的样品,并第一次引入了内标的概念。两种样品中的蛋白质采用不同的荧光标记后混合,进行2-DE,用来检测蛋白质在两种样品中表达情况,极大地提高了结果的准确性、可靠性和可重复性。在DIGE技术中,每个蛋白点都有它自己的内标,并且软件可全自动根据每个蛋白点的内标对其表达量进行校准,保证所检测到的蛋白丰度变化是真实的。DIGE技术已经在各种样品中得到应用。

高效液相色谱技术(HPLC)

尽管二维凝胶电泳(2-DE)是常用的对全蛋白组的分析方法,但其存在分离能力有限、存在歧视效应、操作程序复杂等缺陷。对于分析动态范围大、低丰度以及疏水性蛋白质的研究往往很难得到满意的结果。Chong等使用HPLC/质谱比较分析恶性肿瘤前和癌症两种蛋白质差异表达。利用HPLC分离蛋白质,并用MALDI-TOF-MS鉴定收集的组分,从而在两种细胞中的差异表达中对蛋白质进行定量分析。多维液相色谱作为一种新型分离技术,不存在相对分子质量和等电点的限制,通过不同模式的组合,消除了二维凝胶电泳的歧视效应,具有峰容量高、便于自动化等特点。二维离子交换-反相色谱(2D-IEC-RPLC)是蛋白质组学研究中最常用的多维液相色谱分离系统。

质谱技术

最早是MALDI-TOF,MALDI基质辅助激光解吸离子化技术于2002年由诺贝尔化学奖得主田中发明,刚刚产生便引起学术界的高度重视。MALDI和TOF(飞行时间质谱)搭配是一个理想的快速鉴定技术。最早,SELDI技术是蛋白质组学研究中比较理想的技术平台,其全称是表面增强激光解吸电离飞行时间质谱技术(SELDI-tof)。其方法主要如下:通常情况下将样品经过简单的预处理后直接滴加到表面经过特殊修饰的芯片上,既可比较两个样品之间的差异蛋白,也可获得样品的蛋白质总览。因此,在应用方面具有显著优势。SELDI技术分析的样品不需用液相色谱或气相色谱预先纯化,因此可用于分析复杂的生物样品。SELDI技术可以分析疏水性蛋白质,PI过高或过低的蛋白质以及低分子质量的蛋白质(

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇