机器学习(ML)在材料领域应用
机器学习作为一种兼顾开发效率以及开发成本的方法,已经逐渐应用于材料发现、结构分析、性质预测、反向设计等多个领域,并且在材料学研究中展现出惊人的潜力。传统的发现新材料的方法,如经验试错法和基于密度泛函理论(DFT)的方法,往往需要较长的研发周期,成本高、效率低,已经不能很好的适应如今需求量激增的材料学领域机器学习因其强大的数据处理能力和相对较低的研究门槛,能够有效地降低工业开发中的人力物力成本,缩短研发周期。代替或配合传统的实验以及计算模拟,能够更加快速且准确的分析材料结构、预测材料性质,从而更加有效的开发新的功能材料机器学习因其强大的数据处理能力和相对较低的研究门槛,能够有效地降低工业开发中的人力物力成本,缩短研发周期。代替或配合传统的实验以及计算模拟,能够更加快速且准确的分析材料结构、预测材料性质,从而更加有效的开发新的功能材料。机器学习已在光伏材料设计、纳米材料设计、医药设计、量子化学等诸多领域取得令人瞩目的成果,是未来材料学研究与发展的一个重要方向。在材料科学中,机器学习在新材料发现和材料特性预测等领域至关重要。例如,在预测玻璃化转变温度Tg的实验中,很难找到一个公式,可以精确地描述Tg与刚性,链迁移率,平均分子极化率和净电荷的四个相关因素之间的关系。但是,可以使用机器学习方法基于给定样本对条件因子与决策属性之间的关系进行建模。这是机器学习发挥作用的地方,也是“核心”算法所在的地方。通过机器学习获得的知识以易于使用的格式存储,进而可以用于材料发现和设计。
机器学习(ML)在材料领域应用的专题培训背景机器学习作为一种兼顾开发效率以及开发成本的方法,已经逐渐应用于材料发现、结构分析、性质预测、反向设计https://mp.weixin.qq.com/s?__biz=Mzk0MDMyOTkyOQ==&mid=2247483817&idx=1&sn=501d65defc6b4964a50c981520aaaced&chksm=c2e21f0ff59596191c71918fabb2d71338485ae48d29e713e881601be4db993c0b565027442a#rd
健康计算:人工智能赋能生命科学与生物医药研究
我们现在正在经历数字3.0时代,这是一个将信息与物理世界、生物世界融合的智能感知时代。健康计算就是在生物世界的数字化与智能化的大趋势下,我们可以用人工智能和数据驱动的第四科学研究范式,辅助人类探索并解决生命健康的问题。——马维英
活动介绍
北京智源大会是人工智能领域盛会,已成功举办两届。2021北京智源大会于6月1日至6月3日在线上线下同步召开。本次会议共设29个专题论坛,从AI基础研究、跨界融合、到产业应用,为各界人士提供了一个交流和碰撞想法的平台。本次会议聚集了八千余位AI领域的科学家、企业家、投资者、学界人员、业界人员,累计参与观看直播和讨论人次达200万。
2021年6月3日,清华大学智能产业研究院惠妍讲席教授、首席科学家马维英教授应邀参加2021北京智源大会AI制药论坛,并做主题为《健康计算》的演讲,向大家介绍了健康计算这一新兴研究热点中人工智能的现状、挑战及机遇,及清华大学智能产业研究院(AIR)在健康计算领域的计划与部署。
讲者介绍
马维英博士现为清华大学智能产业研究院惠妍讲席教授、首席科学家。他的研究方向包括人工智能的几个核心领域(搜索与推荐、大数据挖掘、机器学习、自然语言理解与生成、计算机视觉)以及人工智能在生命科学、生物制药、基因工程、以及个体化精准医疗等领域的跨学科研究与应用。他此前曾任字节跳动副总裁兼人工智能实验室主任、前微软亚洲研究院常务副院长。
马博士曾在世界级会议和学报上发表过逾300篇论文,并拥有160多项技术专利。他是电气电子工程师学会会士(IEEEFellow),曾任国际信息检索大会(SIGIR2011)联合主席、国际互联网大会(WWW2008)的程序委员会联合主席。他于2017年获得吴文俊人工智能科学技术奖二等奖,并曾入选TOP100科学家,全球排名第86位。
报告内容
在报告开始,马维英教授简短的介绍了健康计算的定义,回顾了数字1.0到3.0的进程,以及介绍了AI在生物医疗领域的现状和未来的发展及机遇。
1.大趋势:生物世界的数字化自动化智能科学计算
我们现在正在经历数字3.0时代,之前有内容数字化为主的1.0时期,也有信息网络化为主的2.0时期,在人工智能兴起的这一轮,数字3.0是将信息与物理世界、生物世界融合的智能感知时代。
现在有公司试图用计算的方式加入传统实验,来成为一种可以盈利的服务。AI其实已经在加速生命健康与生物医药领域的发展。开发一种新药平均需要10余年的时间以及25亿美金的资金投入,这养的每个人都可以用的平均药,还远没有到个性化医疗的程度。AI已经有很多方式来加速相关领域的发展。例如AICRISPR基因编辑来寻找靶点,以加速新靶点的开发。再例如抗体/TCR/个性化的疫苗、蛋白质结构甚至下一步功能的端到端预测。同时,也有一些研究人员在通过机器人技术来自动化湿实验。
2.健康计算:用计算的方法(人工智能、数据驱动的第四研究范式)辅助人类探索并解决生命健康的问题。
两个领域中间的知识GAP较大,相比于原来的CV/NLP等领域更需要专业知识。生物领域的数据并没有统一的标注,获取相应数据的难度也较大,迭代速度相应受到较大影响。与此同时跨界的人才也非常稀缺。这是非常大的挑战,但是这也是我们的机会。
3.推动生命科学、生物医药、基因工程、个人健康各领域从鼓励、开环向协同、闭环发展
推进这几个领域有几个策略,如对生物医疗大数据进行更深入的挖掘,如医疗知识库、文献数据库等并没有很好的被利用,如并没有专门对该领域所设计的预训练模型,而构建这样一个模型需要同时有AI以及相对应的医疗领域的专业知识。
4.清华智能产业研究院(AIR):健康计算研究在AIR有四个子方向:
AI增强个人健康与公共卫生:从测量、评估、知道、干预以及到健康管理,形成一个数据闭环,以更好的利用AI的优势。
AI医疗与生命科学:如智慧医疗、医疗相关的知识图谱与知识引擎,可能需要用到医疗相关知识以及representationlearning相对应的技术。
AI新药发现与制造:目前AIR有合作教授即将加入。我们认为现有挑战是公开优质的数据较为稀缺,我们希望在这一块利用基因编辑基因工程等手法来增强对靶点的预测;药物设计针对大分子药,相比小分子挑战更大,机会也更大;药物疗效预测闭环,能开发可解释的药物疗效模型。或基于现有药进行推荐。针对第三期失败的药,分析个性化疗效,以推荐适合的病人,增加药物使用效率和精准度。
基因组分析和编辑:数据压缩编码、基因搜索以及基因价值发现。
5.TDC数据集:
美国六所大学合作收集并整理的,能直接运用于机器学习及其他AI技术的数据库,这是一个非常有意义的工作。如果我们能创建一个类似于计算机视觉中ImageNet数据集一样意义的医疗领域的数据集,那是一个非常不得了的工作。
6.同时也有一个AI生命科学破壁计划:
a.提供一个旗舰式的数据集
b.为生命科学家广泛采用应对复杂生物医学挑战的人工智能技术奠定基础
马维英教授也表达了希望中国也有这样一个破壁计划的心愿。这样的计划也会带来更多的尖端跨界人才。
7.通过AI技术的发展,我们可以从多个方向来增强个人健康的管理和改善健康状态。
现在人一般得了病了才去看医生,技术发展到现在我们应该转变这样被动的方法,而转为主动的,AI主导的健康管理。如新一代的可穿戴式设备,能够对血糖进行更好的监控。再比如AI作为嗅觉感知器来收集健康信息。
基于个性化推荐引擎的智能健康管理系统。如慢性病的判断,如外卖公司对饮食进行统计,通过对食物全链条的数据使用AI处理和分析,能够对个人健康产生较大意义。
增强个人健康的关键技术包括支持健康计算的多模态AI、面向健康计算的知识图谱与推理、个性化推荐引擎,以及,因为相关数据较为敏感,面向隐私保护的机器学习。
8.多模态AI:
通过不同的表达和模型,来完成更好的、协同的优化学习,也是一个非常关键的技术和研究方向。
9.总结
健康计算随着数字化3.0时代的到来,也迎来了前所未有的挑战和机遇。马维英教授认为健康计算将推动生命科学、生物医药、基因工程以及个人健康等各领域从孤立、开环向协同、闭环发展。基于此,人类健康服务也将更快速、精准、安全、经济、普惠。健康计算下个十年蕴含着巨大的科学发展与产业创新的机会。
点击此处阅读原文
撰文/RuiWang
编辑排版/冼晓晴
校对责编/黄妍
人工智能在生物医药领域的应用
图2:基于AI开发的黄斑变性和糖尿病性黄斑水肿诊疗系统CC-Cruiser
图3:与现有的计算机分析方案(中)相比,新型人工智能(右)能更准确地找到肿瘤(图片来源:谷歌)
二.人工智能辅助新药研发
新药研发涉及到从上游到下游的几个环节:药物靶标的确定,先导化合物的筛选,先导化合物的优化,以及最终的临床实验。其具有研发周期长、资金投入大、失败率高等特定,一直是制药界的痛点。之前,计算机辅助药物设计(computeraideddrugdesign,CADD)的引入虽然给制药业带来了一些成功的案例,但依然没有根本的改观。而人工智能技术的崛起,则为新药研发带来了新的曙光[5]。自2017年以来,人工智能在制药领域的应用可谓如火如荼,国际制药巨头纷纷部署自己的AI系统,用于提高新药的研发效率,如Merck,Novatis,Roche,Pfizer,Johnson&Johnsone等。国内的晶泰科技(XtalPi)是一家以计算驱动创新的药物研发初创公司,其基于人工智能与云计算等技术,结合计算物理、量子化学、分子动力学等,旨在提高药物发现与发展这一关键环节的效率与成功率,从而降低研发成本。
三.人工智能辅助基因数据分析
二代测序技术产生了大量的测序数据,AI在基因大数据的分析上亦表现出良好的应用趋势。谷歌子公司Deepmind的科学家发表了一篇论文,提出一个名为DeepVariant[6]的检测工具,使用深度神经学习中的卷积神经网络(CNN)来检查基因组上的单碱基突变(SNP)和小的插入缺失(Indel),其准确性超越了当前主流的生物信息学软件GATK。传统的基因组关联分析(GWAS)大多只能检测单个点突变(SNP)与所研究疾病的关系,而DeepWAS[7],这一新提出的框架则能够根据功能单元,选择出一组SNP的集合,来更加综合地研究致病的基因突变,并能直接寻找调控区域的基因突变。在一项针对抑郁症的研究中,使用DeepWAS框架的研究发现了一个新的控制抑郁症的主要基因MEF2C。此外,人工智能分析基因组数据还可以实现对多种肿瘤的精确诊断。
结语:
目前,人工智能在医药领域的科研和产业发展均表现的可圈可点。毫无疑问,人工智能和生物医药领域的融合必将不断的深化和广化,更多的成功案例将不断涌现。但是也可以预见,AI应用的落地,仍需面对和解决许多问题,不仅仅是技术问题,还有伦理问题和社会问题。
参考文献
1.GulshanV,PengL,CoramM,StumpeMC,WuD,NarayanaswamyA,VenugopalanS,WidnerK,MadamsT,CuadrosJetal:DevelopmentandValidationofaDeepLearningAlgorithmforDetectionofDiabeticRetinopathyinRetinalFundusPhotographs.Jama2016,316(22):2402-2410.
2.LongE,LinH,LiuZ,WuX,WangL,JiangJ,AnY,LinZ,LiX,ChenJ:Anartificialintelligenceplatformforthemultihospitalcollaborativemanagementofcongenitalcataracts.NatureBiomedicalEngineering2017,1:0024.
3.EstevaA,KuprelB,NovoaRA,KoJ,SwetterSM,BlauHM,ThrunS:Dermatologist-levelclassificationofskincancerwithdeepneuralnetworks.Nature2017,542(7639):115-118.
4.XuT,ZhangH,XinC,KimE,LongLR,XueZ,AntaniS,HuangX:Multi-featurebasedbenchmarkforcervicaldysplasiaclassificationevaluation.PatternRecognition2017,63:468-475.
5.JingY,BianY,HuZ,WangL,XieXS:DeepLearningforDrugDesign:anArtificialIntelligenceParadigmforDrugDiscoveryintheBigDataEra.TheAAPSjournal2018,20(3):58.
6.PoplinR,NewburgerD,DijamcoJ,NguyenN,LoyD,GrossSS,McLeanCY,DePristoMA:CreatingauniversalSNPandsmallindelvariantcallerwithdeepneuralnetworks.bioRxiv2016:092890.
7.EraslanG,ArlothJ,MartinsJ,IuratoS,CzamaraD,BinderEB,TheisFJ,MuellerNS:DeepWAS:DirectlyintegratingregulatoryinformationintoGWASusingdeeplearningsupportsmasterregulatorMEF2Casriskfactorformajordepressivedisorder.bioRxiv2016:069096.
转自生信草堂公众号,已授权
生信草堂
浙大生信博士团队倾力打造的一个科研人员学习交流的公众微信平台。我们致力于科研社区服务,分享前沿的科技进展,提供生信分析方法,解读经典分析案例,公众数据库的挖掘和临床数据统计分析。在此我们欢迎各位的加入!
加微信bioinformatics88拉您进生信交流群返回搜狐,查看更多