博舍

AI预测超过2亿个蛋白质结构 ai 蛋白质结构预测

AI预测超过2亿个蛋白质结构

科技日报北京7月31日电(记者刘霞)据英国《新科学家》杂志网站近日报道,总部位于英国的人工智能公司“深度思维”宣布,将公布超2亿个蛋白质的结构。该公司在短短18个月内,凭借“阿尔法折叠”算法,预测了迄今被编目的几乎所有蛋白质的结构,破解了生物学领域最重大的挑战之一,将助力应对抗生素耐药性、加速药物开发并彻底改变基础科学。

几十年来,根据氨基酸序列确定蛋白质形状一直是生物学领域的一大难题。2020年底,“深度思维”宣布,该公司的“阿尔法折叠”算法能准确预测折叠蛋白质的结构;2021年中,该人工智能已经能绘制人体内98.5%的蛋白质。近日,该公司宣布将公布超2亿个蛋白质的结构,几乎所有这些蛋白质都被编入全球公认的蛋白质研究库UniProt。

“深度思维”也在与欧洲分子生物学实验室下属欧洲生物信息学研究所合作,创建一个可搜索数据库“阿尔法折叠蛋白结构数据库”,研究人员可轻松、自由地访问相关信息,使搜寻蛋白质结构变得几乎和网络搜索工具一样简单。

很多科学家正在利用“阿尔法折叠”推进多个领域的研究,如牛津大学的马特・希金斯等人正在研究一种他们认为是中断疟疾寄生虫生命周期的关键蛋白质,希望研制出有效的疟疾疫苗;也有科学家用其设计新酶来分解塑料垃圾,并进一步了解使细菌对抗生素产生耐药性的蛋白质。

伦敦帝国理工学院的基思・威廉姆森表示,“阿尔法折叠”改变了生物学研究,但仍存在一些问题,如它无法提取任意氨基酸序列,并精确模拟它们的折叠方式,也无法揭示蛋白质之间复杂的相互作用,另外,其在准确性方面还有待改进。

“深度思维”公司表示,目前正致力于提高该工具的准确性,以进一步了解蛋白质如何生成以及细胞如何工作。

让所有人都能做蛋白质结构预测,华为昇思MindSpore最新成果将开源

图1.AlphaFold2预测精度会随着可用的MSA个数不足时而显著降低。图片来源:AlphaFold2论文

但自然界中仍然存在大量「孤儿序列」,如人类蛋白组中不少蛋白以及大量的病毒等其它抗原相关蛋白,都存在着MSA不够深的问题。此外,在蛋白质设计领域中,研究人员会普遍面临人造序列没有MSA可用的情况。在这些场景下,AlphaFold2等模型对相关的结构预测准确度会大幅下降,变得不再适用。

另一方面,AlphaFold2等标准检索MSA流程,是在数据库中使用搜索工具对目标蛋白及相关序列进行多重序列比对,该流程需要配置数据库,其中数据库规模大概在1.3T左右,配置耗时长且繁琐,并且使用数据检索工具(如HHblits,JackHMMER,MMseqs2等)搜索时间长,不利于科研人员展开研究。

昇思MindSpore社区与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组新提出的AIMSA引擎,对于原始MSA质量不高或者数量少的蛋白,将AIMSA引擎接入AlphaFold2后可以明显改善结构预测的质量,如下图所示:

图2.不同方案预测的蛋白质结构效果对比图

图3.零样本预测精度对比

并且端到端的推理性能相较于AlphaFold2标准检索流程有大约40+倍的提升,相较于MMseqs2约5+倍的提升,可以大幅提升结构预测模型的推理通量,且训练完后的AIMSA引擎不需要额外配置数据库。

图4.AIMSA引擎相关性能对比图

团队表示,AIMSA引擎是一种对下游结构模型普适的预训练方案,可以在免于微调的情况下直接接入下游的结构预测模型,例如AlphaFold、RoseTTAFold等,助力科研人员在蛋白质结构预测、蛋白质设计、蛋白质互作等方向进行研究,同时推动生物制药产业发展。

北京大学李兆基讲席教授谢晓亮认为,创新自研的AIMSA引擎和基于昇思MindSpore的蛋白质结构预测程序的开源,标志着我们国家在全球蛋白质结构预测领域名列前茅,该长足进步源于高毅勤团队在相关底层技术上多年的深耕和积累。

昇腾AI基础软硬件平台、昇思MindSporeAI框架,支持AIforScience研究新范式

AIMSA引擎训练参数量有47M,数据量总共达4.4T,其训练对框架提出了不小的要求,昇思MindSpore在昇腾AI基础软硬件平台上与昇腾CANN深度结合,通过深度协同优化的高性能算子库,充分释放硬件的算力。

昇思MindSpore采用了多段并行流水线的方式来构建数据处理pipeline,更加细粒度地规划NPU、CPU等计算资源的使用,天然支持各段使用异构硬件进行流水处理,大大提高了数据处理过程的吞吐量。

同时,昇思MindSpore支持大集群高效训练,实现了优质的计算通信比,并且通过三层AI分布式编程范式(手动并行+半自动并行+全自动并行),大幅提升分布式并行程序开发效率。

相关代码和模型参数后续会在昇思MindSpore社区开源,算法和相关的论文也会尽快公布。

团队还发布了首个具有高覆盖度和多样性的百万级蛋白质结构预测数据集PSP。该数据集由570k个真实结构序列(10TB)和745k个互补蒸馏序列(15TB)组成。昇思MindSpore基于该数据集可进行蛋白质结构预测训练,同时提供了丰富的处理及使用该数据集的接口,欢迎试用。

了解更多可查看论文:https://arxiv.org/pdf/2206.12240.pdf

相关工作

MindSporeScience开源路径https://gitee.com/mindspore/mindscience昇思MindSpore最新成果开源:高毅勤课题组发布高性能蛋白质结构预测工具https://biopic.pku.edu.cn/xwzx/mtbd1/517695.htm昇思MindSpore再突破:蛋白质结构预测训练推理全流程开源,助力生物医药发展https://icg.pku.edu.cn/xwzx/kycg/520034.htm昇思MindSpore蛋白质结构预测模型拿下CAMEO全球预测竞赛第一https://www.huawei.com/cn/news/2022/4/mindspore-cameo-protein-ascend

了解更多,可访问并关注昇思科学计算开源项目

https://gitee.com/mindspore/mindscience返回搜狐,查看更多

Meta AI预测6亿蛋白质结构—新闻—科学网

DeepMind遇上对手MetaAI预测6亿蛋白质结构

 

ESM宏基因组图谱数据库包含6.17亿个蛋白质的结构预测。图片来源:ESM宏基因组图谱

谷歌旗下人工智能(AI)公司DeepMind今年公布了2.2亿个蛋白质的预测结构,几乎涵盖了DNA数据库中已知生物的所有蛋白质。现在,另一个科技巨头正在填补蛋白质宇宙中的暗物质。

Meta公司(前身为Facebook)的研究人员使用人工智能预测了约6亿个蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。相关研究11月1日发表于预印本网站BioRxiv。

“这些是非常神秘的蛋白质,为深入了解生物学提供了可能性。”Meta人工智能蛋白质团队研究负责人AlexanderRives说。

该团队使用“大型语言模型”生成了这些预测。“大型语言模型”是一种人工智能,可作为通过几个字母或单词预测文本的工具的基础。

通常语言模型是在大量文本的基础上进行训练的。为了将其应用于蛋白质,Rives团队将已知蛋白质序列“喂”给它们,这些蛋白质可以由20个不同的氨基酸链表示,每个氨基酸链由一个字母表示。然后,该模型学会了在氨基酸比例模糊的情况下“自动补全”蛋白质。

Rives说,这种训练使模型对蛋白质序列有了直观的理解,蛋白质序列包含了蛋白质形状的信息。

第二步,受DeepMind开创性蛋白质结构人工智能算法AlphaFold的启发,模型将这种洞察力与已知蛋白质结构和序列之间关系的信息相结合,从蛋白质序列中生成预测结构。

今年夏天早些时候,Rives团队报告称,其模型算法名为ESMFold,虽准确性不如AlphaFold,但在预测结构方面要快60倍左右。“这意味着我们可以将结构预测扩展到更大的数据库中。”Rives说。

作为一个测试案例,研究团队决定将模型应用于大规模测序的“宏基因组”DNA数据库,这些DNA来自于环境,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。绝大多数编码潜在蛋白质的DNA条目来自从未被培养过的生物,也不为科学家所知。

Meta团队总共预测了超过6.17亿个蛋白质的结构,这项工作只花了两周时间。Rives表示,预测是免费的,任何人都可以使用,就像模型的底层代码一样。

在这6.17亿个预测中,该模型认为超过1/3的预测是高质量的,因此研究人员可以确信蛋白质的整体形状是正确的,在某些情况下,模型可以识别更精细的原子级细节。值得一提的是,其中数以百万计的结构都是全新的,与实验确定的蛋白质结构数据库,或从已知生物体预测的AlphaFold数据库中的结构都不同。

AlphaFold数据库的很大一部分是由彼此几乎相同的结构组成的,而宏基因组数据库则应该涵盖以前从未见过的蛋白质宇宙的很大一部分。

美国哈佛大学进化生物学家SergeyOvchinnikov对ESMFold做出的数亿个预测表示怀疑。他认为,有些蛋白质可能缺乏确定的结构,而另一些可能是非编码DNA,被误认为是蛋白质编码材料。

德国慕尼黑工业大学计算生物学家BurkhardRost对Meta公司模型的速度和准确性的结合印象深刻。但他质疑,从宏基因组数据库预测蛋白质是否真的比AlphaFold的精确度更高。基于语言模型的预测方法,更适合快速确定突变如何改变蛋白质结构,这是AlphaFold无法做到的。

据DeepMind的一位代表说,该公司目前没有计划在其数据库中进行宏基因组结构预测,但不排除在未来这样做的可能性。

韩国首尔国立大学计算生物学家MartinSteinegger认为,这类工具的下一步显然是研究生物学中的暗物质。“我们很快就会在这些宏基因组结构的分析方面出现爆炸式增长。”

相关论文信息:https://doi.org/10.1101/2022.07.20.500902

 版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。

祝贺!AIRFold获CAMEO蛋白质结构预测竞赛全球第一

由清华大学智能产业研究院(AIR)兰艳艳教授团队研发的系统化蛋白质结构预测解决方案AIRFold,在蛋白质结构预测竞赛CAMEO上连续四周夺得全球第一。

AIRFold在最近一个月(7.23-8.20)的评估中连续四周全球第一,并在系统响应时间上远远领先其他团队

蛋白质结构对于理解蛋白质功能以及诸多重要的生命活动有重要意义,它的结构也在一定程度上约束了蛋白质序列的突变。所幸蛋白质的同源序列中包含了丰富的结构信息,这为数据驱动的解决方案提供了可能性。目前半参数化的深度学习解决方案,如AlphaFold2等充分利用数据驱动的端到端深度学习模型,在结构预测上已取得与冷冻电子显微镜等实验技术相当的精度。但是,这些模型极度依赖输入的同源序列信息,在实际的很多场景中还有不小的局限性:比如在缺少同源序列的蛋白质上预测结果不理想,以及对同源输入的冗余噪声较为敏感等。

AIRFold在AlphaFold2的基础上,致力于为蛋白质结构预测这一生命科学领域的关键性问题提供可拓展的系统化解决方案。AIRFold独有的同源挖掘(HomologyMiner)模块,聚焦于共进化信息的挖掘和提取,对蛋白质同源序列(MSA)中的协同进化信息进行智能化、自动化地提取、分析和处理。例如,HomologyMiner中引入了同源蛋白的语义检索和生成两个模块:检索模块利用结构和序列的共同表征学习,通过稠密检索从现有数据库中补充和完善同源蛋白信息;生成模块则基于深度生成模型,对蛋白质的接触矩阵(ContactMatrix)以及多序列比对数据进行生成式建模,从而通过生成同源蛋白序列对共进化信息进行补充。

此外,HomologyMiner的同源表征信息优化模块,还能从信息论的角度对同源序列数据中的共进化信息进行量化,多角度地利用共进化信息量作为优化的目标,如序列级的信息最大化,基于位置的信息约束等。结果显示,经过优化校正的同源蛋白表征信息在结构预测中表现更加稳定、有效。

HomologyMiner模块通过对共进化信息的有效建模,为复杂同源序列分布的蛋白质结构预测提供了全新的解决方案,并取得了不俗的表现:在最近一周(8.14-8.20)“hard”分类的序列上,AIRFold是唯一lDDT均分高于80分的模型;在最近一个月(7.23-8.20)以及三个月(5.21-8.20)的“hard”序列上,AIRFold均表现优异,并遥遥领先于第二名。

团队的模型在“hard”分类上表现优异,从左到右分别是最近1周、1个月和3个月在“hard”分类序列上的表现

在诸多CAMEO比赛的蛋白质序列中,7TVI是一个重要但较难预测结构的蛋白,该蛋白展示的是Cas13bt3-crRNA复合物的结构。其中Cas13 是一类重要的RNA引导的RNA编辑工具,有望成为下一代更安全更高效的基因治疗手段。与AlphaFold2相比,AIRFold预测的结构在 Helical-1和Helical-2两个主要识别crRNA(下图中粉色部分)的结构域上都显著优于AlphaFold2的结果;AIRFold预测的结构形成了正确的crRNA结合位点,而AlphaFold2预测的结构产生了较大的偏离不能正确结合crRNA。AIRFold实现了对这类高难度蛋白的高精度结构预测,使得我们能够高效便捷地研究大量来自不同物种或宏基因组测序结果的Cas13同源蛋白。高精度的结构可以启发研究人员设计出更小、更准、更高效的RNA编辑工具。因此,AIRFold未来将极大地加速CRISPR/Cas相关分子工具的挖掘与设计,助力下一代基因编辑疗法的研发。

CAMEO:2022-08-20_00000216_1|PDB:7TVI_A;Predicted,GroundTruth,crRNA

目前,AIRFold的相关技术还在蛋白单点突变,多构象评估等关键问题上取得初步进展;清华大学智能产业研究院(AIR)AI+生命科学研究团队将与海内外领先的科研及产业机构合作,持续推进结构预测以及蛋白设计等大分子药物开发的核心问题的研究,为AI赋能生命科学做出努力和贡献!

加入AIR(AI+生命科学研究团队)

清华大学智能产业研究院(AIR)AI+生命科学团队招聘博士后/科研工程师/实习生,主要从事AIforScience的交叉学科研究,利用深度学习、自然语言处理、信息检索等领域的前沿方法解决交叉学科的各类挑战性问题。技术创新将落地在AI制药,健康计算等前沿领域,赋能产业,完成高水平科研成果输出。AIR将提供一流的科研平台与创新氛围,在开展前沿研究的同时为大家提供有竞争力的薪酬。其中本科和硕士实习生,还有机会成为拟2023年入学的博士生候选人(团队多位老师有计算机系直博名额)。

指导教师:马维英教授/兰艳艳教授/周浩副教授

简历请发送至airhr@air.tsinghua.edu.cn

邮件主题:医疗健康+姓名+申请职位

关于CAMEO比赛

CAMEO(ContinousAutomatedModelEvaluation)是瑞士生物信息研究所和巴塞尔大学联合举办的全球持续蛋白质结构预测竞赛,是蛋白质结构预测领域最重要的比赛之一。CAMEO竞赛会持续收集最新即将公开的蛋白质序列,并每周从中挑选部分序列作为赛题。在赛题公开到评测的四天窗口期中,参赛团队需要对每一个蛋白序列进行三维结构预测,最终不同团队的提交结果通过标准评价指标lDDT(localDistanceDifferentTest)进行排名。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇