药物研发的未来:人工智能“解锁”
本文从药物研发原理出发,初探机器学习如何应用于药物研发和医药领域常用的机器学习算法。
钥匙和锁
早在1894年,Fischer就提出了著名的锁钥理论(Lock-keytheory):合适的钥匙可以打开正确的锁,合适的底物(substrate)才可以激活相应的酶(enzyme)。延伸到药物研发领域,就需要找到合适的化合物(compound)来激活或者抑制疾病相关的靶蛋白(target)。
图片来源:https://saylordotorg.github.io/text_the-basics-of-general-organic-and-biological-chemistry/s21-06-enzyme-action.html
想要成功打开一把锁,需要根据锁的内部结构设计钥匙的形状,药物研发也通过“寻找并分析锁-筛选并设计钥匙”两步进行。疾病的产生,无论是体内物质异常还是外来物质入侵,一定有一个靶标。比如新冠病毒感染人体会有300多种蛋白质相互作用,癌症的靶标则是体内基因突变引起的异常物质。研究人员首先需要确定靶点,找到需要开启的锁,再通过研究靶标的生物大分子结构、构效关系进行药物分子的筛选和优化,最后再进行动物实验、临床实验。
由此可见,药物研发的关键是“筛选”和“匹配”。不论是筛选靶蛋白还是药物分子,都是在一个巨大的高维空间“搜索”物质;而如何做到更好的锁钥匹配,则是对物质进行“分类”或者“排序”。而搜索、分类、排序,正是机器学习擅长的领域。传统药物研发过程中的化合物筛选和优化耗时耗力,可能需要反复几十遍才能找到效能和生化稳定性都达到要求的药物,且如果实验效果不佳,就需要重新来过;而AI可以从大量数据中自动学习并做出推断,能够极大缩短这个过程。
AI智能“解锁”
机器学习大体可分为有监督、半监督、无监督、强化学习、主动学习、迁移学习、多任务学习,具体到算法则更为多样。从文献的角度,在药物研发领域内,经典贝叶斯方法和支持向量机(SVM)的文献数量占据主导,遗传算法、决策树及集成算法、神经网络等也有所涉及。
图片来源:探针资本
传统机器学习如贝叶斯,虽研究较多但仍然依赖研究人员的先验知识:如果科学家难以判别分子结构和生化性质之间的关系,模型难以推断具有某种药性的分子结构。比如F代表一系列生化性质,S代表分子结构,U代表想要的药性,想要知道能表现出药性的分子具有某种结构的概率分布p(S|F,F∈U),就需要研究人员的先验概率p(F|S),即某结构表现出一些性质的概率,以及分子中出现某种结构的概率p(S)等。选出结构后如何拼接成分子也需要依赖研究人员的经验。
因而为了更全面高效地筛选新药,在近年的实际应用中,具有超强拟合能力的DNN、CNN、RNN、GAN等神经网络方法受到了更多的关注。因此,以下部分主要选取生成性模型在靶点确认、化合物筛选和优化场景中的应用,初步介绍AI是如何进行智能筛选和匹配的。
“锁”的拆解
在药物研发流程中,第一步就是提出“什么是锁”的假设,即某种疾病与靶点、细胞表型或生物标志物之间的关系。传统研究中假设的来源一般为研究者的已有知识储备,如已知重要的药物靶点、通过基因组学研究新发现的靶点和来自公共文献的假设,这可能会受限于过往结果或研究者直觉,很难做到全面和精准。
而AI可以通过学习大量的疾病和非疾病表现反推对疾病有影响的蛋白质。如生物制药公司Berg,建立了一组深度神经网络模型,输入从组织样本、器官液和血液提取的数据。这些数据包括基因组学、蛋白质组学、代谢组学、脂质组学等,来自患有或不患有特定疾病以及处于疾病进展的不同阶段的人。然后模型自动学习搜索非疾病状态和疾病状态之间的差异,并通过敏感性分析推断最终对疾病有影响的蛋白质,找出候选靶蛋白。
“钥匙”的设计和优化
1先导化合物筛选
已知靶标的情况下,就需要通过筛选大量分子找到具有活性的、可以与靶标有效结合的药物候选者成为先导化合物。此时,可以借助计算机技术和药物设计理论,进行虚拟筛选(virtualscreening,VS)。虚拟筛选分为基于结构(structure-based)和基于配体(ligand-based)两类。第一种是基于受体的三维结构,研究靶标与小分子间的相互作用,在结合位点处筛选可匹配的小分子;第二种是利用已知活性的小分子配体,根据化合物的形状相似性或药效团模型筛选与它匹配的化学分子结构。
图片来源:Protein-ligandscoringwithconvolutionalneuralnetworks,2017
2化合物优化
筛选出先导化合物之后,需要对其ADMET(吸收,分布,代谢,排泄和毒性)等性质进行评估,优化其分子结构,从而找到性质优良的药物分子。
图片来源:2018AmericanChemicalSociety
上图的AutoEncoder自编码模型选取SMILES字符串代表分子结构,用VAE和RNN编码器与RNN解码器的组合,实现了SMILE与分子连续潜在空间表示之间的相互转换。同时为了进行分子设计,训练了b图另外的多层感知器,以基于分子的潜在空间坐标来预测感兴趣的特性。因此,输入SMILES编码的分子,通过编码确定其潜在空间矢量(a图),模型可以自动向最有可能改善目标特性的方向移动来生成新的候选矢量(b图)并将其解码为相应的分子(a图),实现了分子结构优化设计。
综上,从“锁”的拆解(靶标分析)到“钥匙”的设计与优化(苗头化合物到临床候选化合物),人工智能与药物化学、药理学、临床医学等学科相融合,提高药物发现关键环节的效率与成功率。
玫瑰色的前景
根据Gartner人工智能技术成熟曲线,深度学习等“AI+制药”领域常用的技术具有较高的关注度并将在2-5年内成熟。而2019年生物科学领域的技术成熟度曲线[4]显示机器学习、自然语言处理等技术正处于生物医药领域的关注高峰处,这可能会加快相关技术的成熟和应用落地。
实际上,已经有一些firstrunners进入了“AI+制药”这个新兴赛道。望石智慧就是具有代表性的一家。他们目前构建了面向小分子新药研发的药物分子设计和知识图谱两大平台,利用AI技术驱动新药研发。
如上图,望石智慧在新药研发的不同环节有不同的技术路线,已经形成了自己的完整“生态”,包含智能化药物分子设计平台(图中虚线框内部分)和药物研发知识图谱。
药物研发过程中,化合物生成可具体分解为两个子模块:分子骨架跃迁和骨架衍生。分子可认为由骨架和药效团组成,类似树干和树枝。骨架跃迁如同对树干进行修改,找到与已知有效分子相似且能破专利的新分子;骨架衍生则是对树枝进行变化,骨架中蕴含着特定靶点下的主要信息,在不错的骨架基础上获取活性更强的分子。经过这两步,可以快速得到大批量的有活性的潜在化合物。之后在通过望石智慧复杂的虚拟筛选系统,可以筛出有可能的先导化合物。
望石智慧的虚拟筛选系统是一套综合深度学习、机器学习和传统虚拟筛选方法的复杂系统,每种方法有自己擅长的部分,例如深度学习和机器学习方法善于从宏观上把握海量化合物和靶点的相互作用规律,传统虚拟筛选方法善于在微观上分析化合物和靶点的相互作用。望石智慧的虚拟筛选系统在保留各自方法优势的同时,巧妙地将二者结合起来,互相补充,从而实现更加强大的虚拟筛选功能。
找到先导化合物后,还可以通过分子优化模块,去改善先导化合物的某个性质,在此基础上设计出质量更好的新分子。
此外,在上一部分提到,AI与药物化学、药理学、临床医学等学科相融合才能有效提高药物发现关键环节的成功率。望石智慧实现知识累积和融合的方式就是药物知识图谱。知识图谱不仅为制药各环节提供靶点、适应症、蛋白相互作用和性质等高质量数据,也挖掘最新医药研发领域专利和研究成果,保证药物研发绝不是闭门造车。
当然,AI制药还有更加广阔的优化前景和未来。据望石智慧介绍,他们在关注更易商业化的“me-better”制药的同时,也把触角伸到了“best-in-class”和“first-in-class”方向。
人工智能辅助药物的市场进入率可能会在一段时间内保持较低水平。但是,随着技术加快成熟,如果简化了测试和批准流程,该比率可能会急剧上升。
因而,虽然AI助力药物研发仍处于初级阶段,我们有理由相信,这抹玫瑰色将是旭日升起的前奏。
[1]https://smart.huanqiu.com/article/9CaKrnKljGC
References
[1]Yang,X.,etal.,ConceptsofArtificialIntelligenceforComputer-AssistedDrugDiscovery.ChemicalReviews,2019.119(18):p.10520-10594.
[2]DavidH.Freedman.HuntingforNewDrugswithAI.Nature,2019.vol576:p.S50-53.
[3]Protein-ligandscoringwithconvolutionalneuralnetworks[J].Journalofchemicalinformationandmodeling,2017,57(4):942-957.
[4]探针资本.信息化与人工智能辅助医药研究.2019.
[5]邓欣贤.知乎.https://www.zhihu.com/question/21878831/answer/20302894
《「望石智慧」完成近千万美元A轮融资》
《AI:捕捉小分子药物的破局之道?》
「线性资本LinearCapital」是一家聚焦于「数据智能DataIntelligence」以及「前沿科技FrontierTechnology」领域的专业投资机构。
我们重点关注「数据应用DataApplication」、「数据基础设施DataInfrastructure」和「前沿科技FrontierTechnology」应用领域的早期项目。投资阶段以天使至A轮领投为主,每个项目投资典型金额为300到500万美元或等值人民币。返回搜狐,查看更多
深入了解人工智能的发展现状及前景
人工智能的高速发展,不仅人工智能技术得到了完善,同时对于企业发展和人们生活工作都产生了一定的影响。为了能够更好地使用和了解人工智能,需要明白人工智能的发展现状以及前景。
深入了解人工智能的发展现状及前景
随着应用模式与商业模式的成形,人工智能产业发展将持续向好,中国人工智能企业超过2500家,已成为全球独角兽企业主要集中地之一。2021年,人工智能领域专业化和细分化程度将进一步提升,人工智能广泛应用的商业化落地阶段来临。
人工智能技术发展趋势第一、深度学习技术从单模态向多模态发展。
未来甚至可以对嗅觉、味觉、心理学等难以量化的信号进行融合,实现多个模态的联合分析,将推进深度学习从感知智能升级为认知智能,在更多场景、更多业务上辅助人类工作。一方面,多模态融合能够推动人机交互模式的升级,人机交互过程中可以从视觉、听觉、触觉等多方面体会机器的情感和表达的语义,通过图文、语音、动作等多方式互动,从整体上提高人机交互的自然度和精确度。另一方面,多模态融合技术,能够对人体的形态、表情和功能进行模拟仿真,打造出高度拟人化的虚拟形象,像真人一样与人沟通互动,不断提升交互体验。
深入了解人工智能的发展现状及前景
第二、边缘人工智能兴起。
边缘人工智能是人工智能领域引人注目的新领域之一,其目的是让用户运行人工智能流程而不必担心隐私或数据传输较慢带来的影响。边缘人工智能可以使人工智能技术得到更广泛的应用,使智能设备在无需接入云平台的情况下对输入做出快速反应。
边缘人工智能变得越来越重要,这是因为越来越多的设备需要在无法访问云平台的情况下使用人工智能技术。在自动化机器人或配备计算机视觉算法的智能汽车的应用中,数据传输的滞后可能是灾难性的。自动驾驶汽车在检测道路的人员或障碍时不能受到延迟的影响,由于快速
2023年中国人工智能行业发展前景如何
中商情报网讯:人工智能是引领未来的新兴战略性技术,是驱动新一轮科技革命和产业变革的重要力量。我国十四五规划纲要明确大力发展人工智能产业,打造人工智能产业集群以及深入赋能传统行业成为重点。
一、人工智能市场现状
1.市场规模增长显著
人工智能是一种应用广泛的技术,在机器的帮助下重塑人类整合信息、分析数据和获取洞察的过程,帮助人类提高效率、优化决策判断,已成为科技创新的关键领域和数字经济时代的重要支柱。数据显示,2021年我国人工智能行业市场规模达1987亿元,2017-2021期间年均复合增长率为58.1%,预计2023年我国人工智能市场规模将达3043亿元。
数据来源:中商产业研究院整理
2.市场占比分析
按照应用领域,我国人工智能可分为决策类人工智能、视觉人工智能、语音及语义人工智能和人工智能机器人。其中,视觉人工智能市场占比最高,达43.3%;决策类人工智能、语音及语义人工智能、人工智能机器人,占比分别为23.7%、18.1%、14.8%。
数据来源:中商产业研究院整理
3.下游应用分析
从应用领域来看,目前我国人工智能在政府、金融、互联网、零售等领域的人机对话、远程作业、营销运营、决策支持等诸多环节存在不同程度的应用。其中,政府城市管理和运营的市场份额接近50%,成为推动我国人工智能行业发展的重要动力。互联网、金融应用占比分别为18%、12%。
数据来源:iResearch、中商产业研究院整理
二、企业分析
1.地域分布
从地域分布角度来看,我国人工智能企业多分布于京津冀、长三角以及珠三角地区,占比分别为44.8%、28.7%、16.9%,代表省市包括北京市、上海市、浙江省、广东省等。
数据来源:中商产业研究院整理
2.企业投融资情况
2017-2022年,中国人工智能投融资数量总体呈增长趋势。在社会发展、政策助推等因素的影响下,2021年我国人工智能投资数量达1044起,投资金额达3053.2亿元,为近年来最高。截至2022年12月28日,我国人工智能行业投资数量为679起,投资金额达1446.38亿元。
数据来源:IT桔子、中商产业研究院整理
3.企业排行榜
数据来源:《互联网周刊》、中商产业研究院整理
三、行业发展前景
1.国家战略引领促进行业发展
人工智能是引领新一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应。我国把人工智能放在国家战略层面,出台了一系列重要政策鼓励支持人工智能的发展。《新一代人工智能发展规划》明确指出了到2030年我国新一代人工智能发展“三步走”的战略目标。十四五规划中明确提出“推动互联网、大数据、人工智能等同各产业深度融合”。因此,在国家战略引领与政策支持下,我国人工智能行业正面临重要的发展机遇期。
2.“新技术”、“新基建”推动行业进步发展
人工智能、大数据、物联网、云计算、5G等新一代信息技术相互联系、相互促进。随着我国新型城镇化的持续推进,新型基础设施的建设也将大规模展开。《2021年政府工作报告》提出重点支持包括新型基础设施在内的“两新一重”建设。未来,5G、城际高速铁路及轨道交通、大数据中心、人工智能等新型基础设施的持续较快建设,将进一步促进人工智能行业的快速发展。
3.下游领域规模优势为行业提供广阔空间
我国人工智能技术的商业化应用,拥有其他国家难以匹及的规模优势。目前,我国人工智能已广泛应用于城市管理、金融、零售等诸多领域。我国在上述领域拥有庞大的产业规模,并在全球范围占据重要地位。随着人工智能技术应用进程加快与程度加深,下游领域庞大的产业规模将为我国人工智能创造广阔的应用市场,行业未来发展潜力巨大。
分享到: