行业图谱——人工智能在药物发现与研发中的应用
「行业图谱系列」是清华大学国家金融研究院资本市场与公司金融研究中心基于科技成果转化研究的一项子课题,聚焦于科技成果这一核心要素,从技术链视角切入展开的研究项目。通过行业图谱的研究,既为科技成果转化提供了专业性知识体系支撑,也有助于指导城镇产业化发展布局、推动产业链融通创新、引导创业投资基金对“硬科技”的积极性及鼓励金融支持创新体系的建设。本报告为行业图谱的第一个系列——生物医药领域:人工智能在药物发现与研发中的应用。
药物发现和研发是制药企业和化学科学家的重要研究领域。人工智能和机器学习技术使制药领域实现了现代化。机器学习和深度学习算法已被应用于多肽合成、虚拟筛选、毒性预测、药物监测和释放、药效团建模、定量构效关系、药物重定位、多药理和生理活性等药物发现过程。
新药研发存在周期长、费用高和成功率低等特点,人工智能作为药物研发领域的一个热点方向,已被应用到药物研发的各个阶段。本研究从人工智能在药物发现与研发中的应用出发,剖析人工智能在药物发现与研发中的应用技术和方法流程,并探讨该领域下国内外的市场竞争情况和最新研究成果。
人工智能在药物发现与研发中的应用
人工智能(ArtificialIntelligence,AI),指的是计算机系统从输入或过去的数据中学习的能力。根据《人工智能:现代方法》中的讨论,人工智能有七种分类(图1-1)。
图1-1人工智能的分类
如图1-2所示,在新药研发中,第一步也是最重要的一步是确定与疾病病理生理学有关的适当靶点(如基因、蛋白质),然后找到可以干扰这些靶点的药物或类药物分子。人工智能的发展可以帮助提取这些大型生物医学数据集中存在的有用特征、模式和结构。在确定和验证了合适的靶点之后,下一步是寻找合适的药物或类药物分子,这些分子可以与靶点相互作用并引起所需的反应。在大数据时代,通过支配海量的大型化学数据库,协助寻找针对特定靶点的完美药物。
图1-2大数据在药物设计和发现中的应用
人工智能在药物发现与研发中的应用技术和方法流程
在新药研发过程中,常遇到的瓶颈问题有:①寻找合适的、具有生物活性的药物分子;②药物分子难以通过第二阶段临床试验和其他监管批准。利用基于人工智能的工具和技术,提升药物研发的效率,解决上述所面临的药物研发问题。为此,下面将详细介绍人工智能在药物发现与研发中的应用技术和方法流程,如图2-1所示。
图2-1人工智能在药物发现与研发中的应用
肽合成与小分子设计
多肽是一种由大约2至50个氨基酸组成的生物活性小链,由于它们具有跨越细胞屏障的能力并可以到达所需的靶点,因此越来越多地被用于治疗。深度学习于肽合成与小分子设计的应用概念图如图2-2所示。
图2-2人工智能在肽合成与小分子设计的应用
分子通路的鉴定与多重药理学
人工智能和最大似然算法在药物发现和开发中的重要成果之一是预测和估计疾病网络、药物—药物相互作用和药物—靶点关系的总体拓扑和动力学。如图2-3所示,数据库如DisGeNET、STRTCH、STRING分别被用于确定基因—疾病关联、药物—靶标关联和分子途径。
图2-3人工智能在分子通路的鉴定与多重药理学的应用
蛋白质折叠和蛋白质相互作用的预测
分析蛋白质—蛋白质相互作用(Protein-ProteinInteraction,PPI)对于药物开发和发现至关重要,如图2-4所示。比如使用贝叶斯网络(BayesianNetwork,BN)预测PPI,其本质是利用基因共表达、基因本体(GeneOntology,GO)和其他生物过程相似性,集成数据集产生精确的PPI网络。
图2-4人工智能在蛋白质折叠和蛋白质相互作用的预测
基于结构和基于配体的虚拟筛选
在药物设计和药物发现中,虚拟筛选(VirtualScreening,VS)是CADD的重要方法之一,是从化合物库中筛选出有前景的治疗化合物的有效方法(如图2-5所示),以针对目标筛选具有所需活性的化合物。
图2-5人工智能在药物虚拟筛选的应用
药物重定位
在新药研发中,先导化合物的筛选是至关重要的,人工智能在识别新的和潜在的先导化合物方面发挥着巨大的作用。在化学空间中有大约1.06亿个化学结构,他们来自不同的研究,如基因组研究、临床和临床前研究、体内分析和微阵列分析。利用机器学习模型,根据活性位点、结构和靶结合能力可以筛选出这些化学结构。
定量构效关系建模与药物再利用
在药物设计和开发中,研究化学结构和理化性质与生物活性之间的关系是至关重要的。定量构效关系(QuantitativeStructure-ActivityRelationship,QSAR)建模是一种计算方法,通过它可以在化学结构和生物活性之间建立定量的数学模型,并针对其他疾病情况进行重新定位(如图2-6所示)。
图2-6人工智能在定量构效关系建模与药物再利用的应用
化合物的作用方式和毒性预测
药物毒性是指化学分子由于化合物的作用方式或新陈代谢方式而对生物体产生的不利影响。如图2-7所示,人工智能可以预测药物分子与靶点结合和未结合时的效应,以及体内安全性分析。
图2-7人工智能在化合物的作用方式和毒性预测的应用
理化性质和生物活性的预测
众所周知,每一种化合物都与溶解度、分配系数、电离度、渗透系数等物理化学性质有关,这可能会阻碍化合物的药代动力学特性和药物靶向结合效率。因此,在设计新的药物分子时,必须考虑化合物的物理化学性质。为此,已经开发了不同的基于人工智能的工具来预测这些性质(如图2-8所示),包括分子指纹、SMILES格式、库仑矩阵(Coulombmatrices)和势能测量,这些都用于深度神经网络(DeepNeuralNetworks,DNN)训练阶段。
图2-8人工智能在理化性质和生物活性的预测的应用
药物剂量和给药效果的识别
给病人任何不适当剂量的药物都可能导致不良和致命的副作用,多年来,确定能够以最小毒副作用达到预期效果的药物的最佳剂量一直是一个挑战。随着人工智能的出现,许多研究人员正在借助ML和DL算法来确定合适的药物剂量,如图2-9所示。
图2-9人工智能在药物剂量和给药效果的识别应用
生物活性物质预测与药物释放监测
最近研究已经开发了多种在线工具来分析药物释放,以及选定的生物活性化合物作为载体的可行性,其概念图如图2-10所示。利用人工智能研究人员可以确定用于与疾病相关的特定靶点的生物活性化合物。
图2-10人工智能在生物活性物质预测与药物释放监测的应用
病毒疫苗的制备及抗体检测
由于数据量巨大,并且需要自动抽象特征学习,人工智能在疫苗发现领域有着重大贡献(图2-11)。COVID-19冠状病毒疾病疫苗的深度学习和机器学习模型主要集中在人工神经网络、梯度提升决策树和深度神经网络等预测算法模型中。
图2-11人工智能在病毒疫苗的制备及抗体检测的应用
人工智能在制药行业开发新药中的应用
最近对药物开发人工智能的大量投资意味着这些初创公司拥有开发技术的人力和资源。与医疗成像领域的人工智能相比,总投资已经增长了四倍多,尽管两个行业的初创企业数量相当。图3-1显示了基于人工智能的新药研发所需要的条件及关键性技术竞争点。
人工智能成为国际竞争的新焦点。针对基于人工智能的新药研发,企业必须把人工智能发展放在企业战略层面系统布局,打造竞争新优势、开拓市场新空间。
图3-1基于人工智能的新药研发所需要的条件及关键性技术竞争点
①数据质量:构建有效且可解释的药物发现模型的方法之一是使用与药物相关的实体来构建神经网络模型。
②算法设计:大多数研究中使用的低水平穷举对接算法在寻找具有局部最小值的受体—配体相互作用时遇到困难,导致高度的亲和力可变性。因此,对接算法的选择、算法结构的设计和评价标准的设置都需要系统地改进。
③临床试验:药物或疫苗开发与临床应用的计算工作之间的转化差距是计算生物学和医学领域的一个主要且被广泛认可的瓶颈。许多预测的药物和疫苗尚未进入临床试验。
④硬件设施:目前,云端和边缘设备在各种人工智能应用中通常是配合工作的,随着边缘设备能力不断增强,越来越多的计算工作负载将在边缘设备上执行。新型人工智能芯片主要包括神经形态芯片、近内存计算芯片等,目前仍处于探索研发阶段。
国际顶级医疗公司在人工智能新药研发的最新研究成果
全球已上市的制药企业见下表3-1,重点关注美国、德国、英国和中国。
表3-1全球已上市或进入临床的人工智能制药企业
国外相关技术早在2000年左右即开始进行院校的科技成果转化。相对而言,我国该领域的研发跟随国际,在新冠疫情之后研究团队开始增加,并注重成果转化的同步进行。基于中国国内院校学者的调研及文献报道,国内学者的研究重点同样集中在递送系统上,如表3-2所示:
表3-2AI制药中国学者定位
作者
朱雅姝清华大学国家金融研究院资本市场与公司金融研究中心高级研究专员
安砾清华大学五道口金融学院副教授、清华大学国家金融研究院资本市场与公司金融研究中心副主任
邮箱rccmcf@pbcsf.tsinghua.edu.cn
感谢资本市场与公司金融研究中心的实习生许喜远(清华大学医学院2022级博士生)对本报告的助研工作。
点击“阅读原文”获取报告全文
人工智能技术在医药研发中的应用
鉴于人工智能技术在医药领域内得到越来越多的关注,以及在未来新药研发的重要位置,有必要对目前的研究及应用现状进行归纳总结。本文首先概述人工智能的主要方法,论述人工智能的特点,综述人工智能在医药研发各专业领域中的应用情况,讨论国内外实践经验,归纳人工智能应用的关键问题,最后提出建议并总结。
1
人工智能概述
1.1人工智能的主要应用领域
人工智能的主要应用领域包括机器学习、进化计算、图像识别、自然语言处理、认知计算等。除此之外,其他领域仍在持续性发展中。目前机器学习的主流研究方向也是人工智能的重要应用领域,机器学习可以通过计算获得经验来提高系统本身的性能。机器学习可以分为传统机器学习和高级机器学习,传统机器学习包括无监督学习和有监督学习等,高级机器学习则包括深度学习、强化学习和迁移学习等[9-11]。
1.2人工智能的主要发展过程与自身特点
自从1956年人工智能诞生以来,它经历了从高潮到低潮的各个阶段。最近的低潮发生在1992年,当时日本的第五代计算机并未取得成功,其后人工神经网络热潮在20世纪90年代初退烧,人工智能领域再次进入低潮期。直到2006年,GeoffreyHinton提出了深度学习的概念并改进了模型训练方法,突破了神经网络的长期发展瓶颈,人工智能的发展迎来新一轮浪潮。此后,国内外众多知名大学和知名IT企业开展了深度学习、强化学习、迁徙学习等一系列新技术的课题研究。同时,智能医疗、智能交通、智能制造等社会发展的新需求驱动人工智能发展进入了一个新阶段。
人工智能基于先进的机器学习、大数据和云计算,在感知智能、计算智能和认知智能方面具有强大的处理能力。它以更高水平接近人的智能形态存在,主要特点包括:①从人工知识表达到大数据驱动的知识学习技术。②从多媒体数据的子类处理到跨媒体交互。③从追求智能机器到高层人机协作。④从关注个人智能到基于网络的群体智能。⑤从拟人机器人到更广泛的智能自我处理系统。
内容由凡默谷小编查阅文献选取,排版与编辑为原创。如转载,请尊重劳动成果,注明来源于凡默谷公众号。
2
人工智能在医药研发领域的应用现状
本文为全面了解目前研究现状以及关注热点,借鉴杨超凡等[12]的方法,通过Scrapy(爬虫),在百度学术以“artificialintelligenceanddrugdiscovery/research”为关键词进行英文文献搜索,得到共361篇英文文献,爬取到了每一篇文献中摘要、关键词、研究点分析以及发表时间。在进行文献搜集时只搜集了英文文献,因为一方面,人工智能在药物研发领域国外研究起步较早且研究体系相对成熟,形成对比的是国内在该方面领域研究较少;另一方面,本文要爬取信息并对文本进行分词处理,英文由标点符号、空格、单词组成,所以只用根据空格和标点符号便可将词语分开,进行处理时更为便捷和精确。
作为抽象信息的视觉表达手段,信息可视化可用于文档处理和数据挖掘。本文主要使用Python的Pandas数据分析软件包进行文献的可视化处理和可视化分析,为了符合科学的测量原理,使研究结论更加具有时间敏感性,首先需要进行数据清理。为了更形象、更直观地展现出人工智能在医药研发方面的发展趋势,将对本文年度发表文章数使用Matplotlib绘图库进行绘图分析。通过数据清洗后,分析年度相关发表论文量与发表文章数量趋势,见图1和图2。
通过以上可视化分析,可以清楚了解到人工智能在医药研发方面的研究发展趋势,与上文分析人工智能发展趋势基本一致,同时也能发现近5年人工智能在医药研发方面研究趋于减少乃至于停滞,亟须整个行业进一步投入以及寻找发展新活力。为了确认人工智能在医药研发重点应用领域,利用Python对爬取到的数据中关键词、摘要、研究点分析进行了系统的词频统计,见表1。
从上述表1关键词频可以直观看到,关键词词频数越大,说明该主题在人工智能医药研发方面中的关注度越高,研究越热。高频词中机器学习(MachineLearning)、药物研发(DrugDiscovery)、医疗保健(HealthCare)、数据库(Databases)、数据挖掘(Datamining)、数据分析(DataAnalysis)、数据可视化(DataVisualization)、数据交流(DataCommunication)、归纳逻辑编程(Inductivelogicprogramming)、癌症(Cancer)、神经网络(NeuralNetworks)、药物制剂(PharmaceuticalPreparations)、计算机科学(Computerscience)、医药制造业(PharmaceuticalIndustry)由于研究内容过于宽泛抑或与在医药研发方面的研究相关性不足所以被剔除。通过词频分析、清洗无关研究领域的词汇、综合近义词汇后最终确定了7个频次靠前的人工智能在医药研发重点研究领域:靶点药物研发(DrugTargetsDevelopment)、药物挖掘(DrugMining)、化合物筛选(CompoundScreening)、预测ADMET性质(PredicationofADMETProperties)、药物晶型预测(CrystalStructurePrediction)、病理生物学研究(Pathophysiology)、药物重定位/药物再利用(DrugRepurposing)。人工智能的主要应用领域包括机器学习、进化计算、图像识别、自然语言处理、认知计算,7个频次靠前的人工智能在医药研发重点研究领域在这5个主要应用领域各有涉及,具体关系如图3所示。
2.1人工智能技术在医药研发的应用现状概述
2.1.1靶点药物研发
研究和开发新药的关键是寻找、确定和制备药物筛选目标分子药物靶点。靶点药物是指药物在体内的结合位点,包括生物大分子,比如基因座、受体、酶、离子通道和核酸等,而识别新的有效的药物靶点是新药开发的重中之重,因此发现和验证大量分子靶标所涉及的工作极大增加了药物开发的负担[13]。利用机器学习算法可以组合设计并评估编码的深层知识,从而可以完全应用于旧时的单目标药物发现项目[14]。研究人员首先研究了靶点选择性结合均衡小分子的可能性来确定那些最易于化学处理的靶点,对于双特异性小分子,设计过程类似于单一目标药物。关键的区别在于功效必须同时满足2个不同的目标。初创公司Exscientia是AI公司这方面的典型代表,Exscientia针对这些靶点药物通过AI药物研发平台为GSK公司的10个疾病靶点开发创新小分子药物,来发现临床候选药物[15]。Exscientia系统可以从每个设计周期的现有数据资源和实验数据中学习,这些原理近似于人类自我学习的过程,但AI在识别多种微妙和复杂的变化以平衡药效方面更具效率。Exscientia首席执行官霍普金斯表示,其人工智能系统已经可以用传统方法的1/4时间和成本得到新的候选药物[16]。目前,公司已与众多国际知名制药公司建立了战略合作关系,如Merck公司、Sunovion公司、Sanof公司、Evotec公司、强生公司。
2.1.2药物挖掘
医学、物理学或材料科学领域的专业论文非常广泛,但这些专业论文中有大量独立的专业知识和研究结果,快速且有针对性地组织和连接这些知识和发现的能力对于药物挖掘是极其重要的。使用人工智能可以从大量的科学论文、专利、临床试验信息和非结构化信息中生成有用的信息。通过自然语言处理算法的深度学习优化,分析和理解上下文信息,然后进一步学习、探索、创建和翻译它所学到的知识以产生独特结论。该技术通过寻找可能遗漏的连接使以前不可能的科学发现成为可能:可以自动提取药学与医学知识,找出相关关系并提出相应的候选药物,进一步筛选对某些疾病有效的分子结构,使科学家们能够更有效地开发新药。2016年BenevolentAI公司曾通过人工智能算法在1周内确定了5种假造药物,用于治疗肌萎缩侧索硬化。BenevolentAI使用AI算法建模来确认化合物对睡眠的潜在影响,这是解决帕金森病相关嗜睡症状的一大机会。该公司目前的药物研发产品组合表明,它可以将早期药物研发的时间缩短4年,并有可能在整个药物研发过程中将药物研发的平均效率提高60%[17]。
2.1.3化合物筛选
化合物筛选是指通过标准化实验方法从大量化合物或新化合物中选择对特定靶标具有较高活性的化合物方法,这样通常需要很长的时间和较多的成本,因为要从数万种化合物分子中选择与活性指数相匹配的化合物。Atomwise是硅谷的一家人工智能公司,开发了人工智能分子筛选(AIMS)项目,该项目计划通过分析每种疾病的数百万种化合物来加速拯救生命药物的开发。同时,该公司开发了基于卷积神经网络的AtomNet系统,该系统已经学习了大量的化学知识和研究数据。该系统分析化合物的构效关系,确定药物化学中的基本模块,并用于新药发现和新药风险评估。目前,AtomNet系统已经掌握了很多化学知识和研究资料,2015年AtomNet只用1周时间已经可以模拟2种有希望用于埃博拉病毒治疗的化合物[18]。
2.1.4预测ADMET性质
ADMET性质是衡量化合物成药性最重要的参考指标[19-20],化合物ADMET预测是当代药物设计和药物筛选中十分重要的方法。药物的早期ADMET特性主要使用人或人源化组织功能蛋白作为药物靶点,体外研究技术结合计算机模拟研究药物与体内生物物理和生物化学屏障因子之间的相互作用。为了进一步提高ADMET性质预测的准确性,部分企业通过深度神经网络算法探索了结构特征(包括处理小分子和蛋白质结构)的有效提取,加快了药物的早期检测和筛选过程,并大大减少了研发投入和风险。典型的公司包括晶泰科技等[21]。
2.1.5药物晶型预测
多晶型现象是一种物质可以存在于2种或更多种不同晶体结构中的现象,对于化学药物,几乎所有固体药物都具有多态性。由于晶型的变化可以改变固体化学药物的许多物理性质和化学性质,因此存在几种由于晶型问题而导致上市失败的药物,因此,晶型预测在制药工业中具有重要意义。使用人工智能有效地动态配置药物晶型可以完全预测小分子药物的所有可能的晶型,与传统的药物晶型研发相比,制药公司不必担心缺少重要的晶型。此外,晶型预测技术大大缩短了晶体的发展周期,更有效地选择了合适的药物晶型,缩短了开发周期并且降低了成本[22]。
2.1.6病理生物学研究
病理生物学是一门研究疾病发生、发展和结果的规律和机制的科学。它是传播临床医学和基础医学的“桥梁”学科。病理生物学研究是医学研究和发展的基础。肌萎缩侧索硬化症(ALS,也称为渐冻症)是一种毁灭性的神经退行性疾病,确切的发病机制尚不清楚。ALS的突出病理特征是一些RNA结合蛋白(RBPs)在ALS中发生突变或异常分布。人类基因组中至少有1542个RBPs,并且仅发现了与ALS相关的17个RBPs。IBMWatson是认知计算系统和技术平台的杰出代表。IBMWatson基于相关文献中的广泛学习,构建模型以预测RBPs和ALS相关性。2013—2017年Watson对引起突变的4个RBPs进行了高度评价,证明了该模型的有效性,然后Watson筛选了基因组中的所有RBPs,成功鉴定了5个ALS中发生变化的新RBPs[23]。
2.1.7药物重定位
多年来,研究人员逐渐认识到,提高疗效的最佳策略是基于现有药物治疗某些疾病,发现新的适应证并用于治疗另一种疾病。Visanji博士与IBMWatsonforDrugDiscovery合作,使用Watson强大的文献阅读和认知推理技巧,在几分钟内筛选出3500种药物,并按最佳匹配顺序排列。然后研究人员根据这个“药物排名表”提出了6种候选药物,并在实验室进行了测试。第一种药物(已经得到FDA批准,但该适应证不包括帕金森病)已经在动物实验中初步验证[24]。
2.2人工智能技术
在医药研发方面国内发展现状我国在这方面起步相比于国外较晚,2015年百度公司和北京协和医院开展了癌症研究,结合北京协和医院医学研究优势与百度大数据、人工智能技术,找到了一个重要标志物用于早期诊断与中国大样本密切相关的食管癌,为食管癌提供早期筛查和诊断,为食管癌药物的开发提供靶标,这是中国医学研究和发展领域的重要一步[25],这是我国人工智能在医药研发领域迈出的重要一步。
目前国内相关研究企业数量较少,仍处于起步状态。比较著名的企业有晶泰科技和深度智耀及冰州石生物技术公司。晶泰科技是谷歌与腾讯两大科技巨头共同投资的第一家人工智能公司,它也是中国第一家宣布与世界顶级制药公司进行战略合作的人工智能药物算法公司。该公司在过去严重依赖于实验和误差的一些药物研发步骤上使用药物晶型预测,以极其准确和快速的算法预测结果,帮助制药公司提高研发效率,最后加速药物开发。深度智耀是以人工智能为基础的药物研发和决策平台,以“决策大脑”为核心产品,同时公司已推出10款产品,并于近日发布了新一代人工智能药物合成系统,该系统通过大量学习公共专利和论文数据库,大大提高了科学家的工作效率[26-27]。
另外,深度智耀还推出智能化医学写作,是在自然语言处理等助力下,自动写作绝大多数药物注册类文档。冰洲石生物科技(AccutarBiotech)利用人工智能针对生物药进行药物筛选,已经利用人工智能平台进行了药物设计,其中一款药物针对乳腺癌,适用于乳腺癌常用药物tamoxifen后3~5年复发的患者,已经经过了细胞验证和初步小鼠动物实验,正在美国申请相关专利,并计划推进新药临床研究申请。
但人工智能在我国医药研发方面仍存在部分难点:
其一人才支持是一大问题,全世界大约有22000名具有博士或以上学历的人工智能从业者和研究人员,而在中国只有约600名。另外,国内人工智能人才几乎被几家主要的龙头企业所垄断。数据显示,未来中国人工智能人才缺口高达500万[28]。人才集中是任何行业进一步发展的重要基础,也是人工智能在医药行业应用的关键因素。
目前,人工智能与药学的融合提升了对人才的需求。目前,高校培训与市场需求存在差距,产出人才远远少于市场需求。国家要重视复合型人才的培养,注重培养综合人工智能理论、方法、技术、产品和应用的垂直复合型人才,以及掌握经济、社会、管理、药学的复合型人才。当地政府也需要进一步加强产学研合作,鼓励高校、科研院所和企业合作开展人工智能学科建设,开展创新型专业人才的继续教育,建立公平合理的人才评估机制。
其二,国内创新药研发起步较晚,与国外相比,对于优质数据的积累还有一定距离。但利好消息是某些国内企业比如晶泰科技,在数据积累上颇为优秀。晶泰科技的数据来源是公共数据和私有数据结合,这其中包括晶泰科技在国内外工业、学术界的合作伙伴的积累。同时,晶泰科技通过量化计算算法也可以自行生成大量高质量的数据,这是其一大优势。总体大环境上,中国的医药大数据存在数据不完整、数据质量低、数据共享水平低等问题,医药数据的数量和质量将成为制药行业人工智能发展的主要障碍。
制药行业的专业门槛很高,而且链条很长。此外,中国长期的“多头管理”制度也是导致国内药品数据极度分散的重要原因。此外,医药领域的监管政策和体制改革也很频繁,使得获得连接历史药物数据变得困难。这些都会导致医药数据统计在完整度和精准度上的不足,从而影响相关决策。因此,国家应该在原有的标准管理体系框架内,加强信息和标准的整合,加强国家、行业现有相关标准的普及推广,并出台一系列激励和惩罚措施来推动标准的应用和落地。建立一套有效、完备、真实可靠的数据评估体系,进一步提升数据质量。同时应该加快完善数据共享开放机制,发挥数据应用价值,为人工智能在医药行业应用提供有质有量的数据支撑。
其三,与当前人工智能在医药领域发展火热形成鲜明对比的是政策法规的制定相对滞后。国内目前尚未有人工智能在医药研发方面的立法,但它已经受到学术界和医药行业的关注。2018年1月6日,第一届全国“人工智慧与未来法治”研讨会在西北政法大学举行。
参会者认为,未来人工智能将不能单独提出提供人性化的法律服务,仍然需要人们完成一些辅助工作。展望未来,人工智能法律建设将涉及人格权、知识产权、财产权、侵权责任认定、法律主体地位等方面[29]。目前,人工智能创作的知识产权归属问题、人工智能研发人员法律权利和义务定义问题、人工智能可能需要监管等,都没有明确的法律法规规定[30]。缺乏法律支撑的人工智能在医药行业的前景并不明朗。为了解决以上问题,国家应该加强人工智能知识产权保护,当前许多应用由医院、科研院所、人工智能企业等多方联合开发,最终知识产权归属需要进行明确。另外,建立追溯体系,保证算法的透明,使人工智能的行为及决策全程处于监管之下,明确研发者、运营者和使用者各自的权利和义务是重中之重。
3
人工智能在医药研发中的应用总结
由大数据支撑的广泛互联、高度智能、开放互动和可持续发展的医药产业,是未来发展的趋势,借助人工智能技术推动医药产业发展具有重要意义。虽然人工智能技术在医药产业各专业领域已有较多的应用研究,但总体上还停留在初级研究阶段,在可靠性与准确性方面仍存在部分问题,离实际广泛应用尚有差距。但是,人工智能技术为医药研发带来了无限可能,还需众多医药产业相关人员与政府能够紧抓历史机遇,积极投入,深入开展相关研究工作。
参考文献
详见中国新药杂志2020年第29卷第17期
免责声明
我们尊重原创作品。选取的文章已明确注明来源和作者,版权归原作者所有,如涉及侵权或其他问题,请联系我们进行删除。
内容由凡默谷小编查阅文献选取,排版与编辑为原创。如转载,请尊重劳动成果,注明来源于凡默谷公众号。返回搜狐,查看更多
人工智能发展现状及应用
导读:人工智能(ArtificialIntelligence),英文缩写为AI。人工智能被认为是第四次科技革命的核心驱动力,目前许多领域都在探索AI技术的应用,可谓方兴未艾。那么什么是人工智能,它经历了怎样的发展历程,现阶段发展状况如何,它有哪些应用。本篇文章就为大家做个简单分享。同时也会为大家详细介绍一下百度的AI技术体系。
本文主要内容:
1.人工智能概念
①智能
②人工智能
2.人工智能的发展
①人工智能的发展历程
②AI是中国的机遇
3.AI与百度
①百度AI的发展历程
②百度AI的技术体系
③百度AI的场景化应用
1.人工智能概念
1.1智能
谈到人工智能,需要首先理解“智能”一词的具体含义。智能是指人类才具有的一些技能。人在进行各种活动的过程中,从感觉到记忆再到思维产生了智慧,智慧产生了人类本身的行为和语言,行为和语言统称为能力;智慧和能力结合在一起就是人工智能中的智能一词。
比如,人类的语言表达能力就是一种智能(语言智能);人类进行复杂数学运算的能力也是一种智能(数字逻辑智能);人类的交往能力也是一种智能(人际智能),人们对音调、旋律、节奏、音色的感知能力,也是一种智能(音乐智能)。他们都属于智能的范畴。
1.2人工智能
把智能的概念与人的逻辑理解相结合,并应用到机器中,让机器能更好的模拟人的相关职能,这就是人工智能。人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。
人工智能概念,最早可以追溯到上世纪90年代初,这个时候需要提到一位科学家:图灵。
艾伦·麦席森·图灵(英语:AlanMathisonTuring,1912年6月23日—1954年6月7日),英国数学家、逻辑学家,被称为计算机科学之父,人工智能之父。
图灵最早定义了什么是人工智能,怎样去界定一个机器(或一个设备)是否具备智能。他最早提出了图灵测试(即:一个人在不接触对方的情况下,经过某种特殊的方式和对方进行一系列的问答,如果在某些时间之内,他无法根据这些问题判断对方是人还是计算机,那么我们就认为这台机器具备智能化的思维)。直到2000年左右,才真正有计算机通过了图灵测试,才实现了一个突破。在2014年图灵测试大会上,出现了一个通过图灵测试的机器(或者称为智能聊天的机器人)。这两年人工智能的高速发展,也印证了最早的图灵测试,这也让我们反向看到了图灵在人工智能定义方面做出的突出贡献。
现今,在做图灵测试时,判断这个设备是否具备人工智能,更多的还是从模拟人的角度来考量。但在当前科技背景下,人工智能需要涵盖更广的内容,它不仅仅要模拟人本身的职能,还需要具备一些扩展、替代甚至延伸的职能。
举个例子,在医疗领域,需要经常在实验室进行病毒化验,人处这样的实验环境下会比较危险,经常会出现一些事故,如果能够用机器替代人来做这些实验,这些事故就可以避免。此时,这台机器就不仅仅是在模拟人,而是在替代人,机器本身就具备了替代人的能力。
当前,很多人在担忧:人工智能的发展会不会对人类造成威胁。其实,目前人工智能还处于早期的阶段(或者称之为婴幼儿阶段),我们还处于弱人工智能时代。
当然,随着时间的推移,将来我们可能会把弱人工智能时代推进到强人工智能,甚至再往前推进到超人工智能和智能爆炸时代。但至少目前,我们离这样的时代还有非常远的距离,要实现这样的目标,需要非常多的时间积累,可能要通过几代人甚至十几代人的努力。所以大家不要有过多的担心,人工智能现在更多的还是用于服务人类,用来提高人们的工作效率。
上图引自MIT大学一位教授。
针对人工智能所覆盖的领域,这位教授提出一个观点:“我们要尽可能避免做这些容易“进水”的工作,以免被日后所淘汰掉”。
这张图水平面以下的工作,如存储,计算、甚至象棋活动等,已经被海平面淹没。在海平面边缘的工作,如翻译、驾驶、视觉和音频等,很有可能在未来的一段时间,随着技术的进步也会被淹没。再来看图上高海拔地区的工作,如艺术创新、科学研究,文学创作等,让人工智能替代人类去做这些工作,在现阶段是比较困难的。要让人工智能实现像人一样具备主观能动性,还需要比较长的时间。我们在选择工作,或者在做技术探索的时候,应该从更高的层面布局,而把那些可以被人工智能替代的工作交给计算机去做,这样我们就可以从一些重复性、冗余性的工作中抽离出来,去专门从事创造性的工作(比如艺术创作等)。
2.人工智能的发展2.1人工智能的发展历程我们回顾一下人工智能发展的历程。
人工智能并不是特别新鲜的词,在计算机出现后不久,大家就已经开始探索人工智能的发展了。
1943到1956年这段时间,为人工智能的诞生期,期间有很多人尝试用计算机进行智能化的应用,当然此时不能称为人工智能,只是有类似的概念。
人工智能的分水岭是1956年达特茅斯会议,在本次会议上正式提出了AI这个词。
1956到1974年这段时间,是人工智能发展的黄金时代,是人工智能的第1个高速发展期,通常把这段时间称之为人工智能大发现时代。
1974到1980年这6年的时间里,进入了人工智能发展的第1个低谷,在这个低谷期,出现了非常多的问题,比如计算上的问题、存储上的问题、数据量的问题,这些问题限制了人工智能的发展。
1980到1987年这段时间是人工智能的第2个繁荣期。期间诞生了大量的算法,推动了神经网络的高速发展,同时出现了许多专业的科研人员,发表了许多创造性的论文。
1987到1993年这段时间是人工智能的第2个低谷期,期间有个词叫“AI之冬”。有大量的资本从AI领域撤出,整个AI科研遇到了非常大的财政问题,这是导致”AI之冬”的主要原因。
1993年之后,人工智能又进入到高速发展期,期间出现了许多经典案例,比如1997年IBM公司的深蓝案例,2001年IBM的沃森案例,2016年谷歌AlphaGo案例。这些案例是人工智能在应用层面的体现。
上图概括了人工智能的发展历程。
可以看到,从1956年达特茅斯会议AI这个词诞生,一直发展到现在,人工智能共经历了60多年的跌宕起伏,并不是仅在2016、2017这两年间才出现了人工智能这个概念。
从宏观上看,AI的发展历程经历了三次比较大的起伏。
第1次起伏是从1943年到1956年,首次出现了神经网络这个词,把人工智能推到一个高峰,期间出现了许多大发现。而第1次低谷使人工智能进入到了反思的阶段,人们开始探讨人工智能的应用。
第2次起伏是在上世纪80年代,期间BP算法的出现,神经网络新概念的普及,推动了人工智能又进入第2次高峰和发展。然而从1987年到1993年又进入到了了第2次低谷,这主要因为一些财政原因导致。
第3次起伏从2006年开始,由辛顿提出了深度学习的概念,把神经网络往前推动了一大步,也把人工智能推到了高速发展阶段,尤其是近几年在非结构化领域取得了许多突破(例如在语音与视觉方面),给人工智能进入商业化应用带来许多的基础性技术沉淀。
人工智能为什么会在前面的发展过程里遇到了那么多的坎坷?为什么在最近这几年会进入一个高速发展期?
我们归结了近几年人工智能高速发展的三点原因:
①算力飞跃
人工智能(尤其是深度学习),对底层计算能力的要求非常高。早期的计算受到了极大限制,从CPU发展到了GPU,使得算力几乎能达到几倍甚至十几倍量级的增长。再从GPU到TPU,计算速度能达到15~30倍的增长,使得在算力层面不断取得突破。此外,大量云资源的出现将我们计算的成本压到了最低,我们在处理海量计算的同时,也可以享受比较低的成本。再者,芯片技术的发展,使得端处理能力持续提高,这些都帮助我们在算力层面取得了很大的突破。
②数据井喷
从PC互联网时代到移动互联网时代,再到可穿戴设备的应用,都产生了大量的数据。这两年,每年产生的数据量可以达到50%左右的增长。2017年到2018年,这段时间内基本上每个月产生的数据量可以达到几十个亿的量级,数据量已经非常高。物联网的连接,能帮助我们把更多的数据采集回来,帮助我们在数据层面做更多的积累,这是数据井喷带来的积极影响。
③算法突破
近几年来,从机器学习到深度学习,算法不断取得突破。使得我们可以处理更多的大规模、无监督、多层次等复杂业务。
算法、算力、数据是人工智能的三要素,算力是骨骼,数据是血液和食物,算法就是大脑,三者不断取得突破,才能促进人工智能高速发展。
2.3AI是中国的机遇
人工智能技术的发展也促进了很多产业的发展。中国目前有非常好的历史机遇,不仅仅是在技术上有大量的积累,同时,国家也为人工智能的发展提供了非常好的政策环境。此外,市场空间、资金支持、人才储备,也都为人工智能的发展提供了非常好的条件。
通过上图可以看到,人工智能的研发人才目前还比较短缺。图上数据来源于领英在2017年所做的全球AI人才报告。以2017年的数据来看,全球人工智能专业的人才数量超过190万,在这190万人才中,美国处于第一梯队,有85万+;而中国在人工智能领域的人才积累比较少,从数据上来看,目前国内人工智能方面的专业技术人才可能只有5万+,当然这是2017年的数据,现在可能会有一些增长,但是量级也没有达到我们想象的那么大。
所以从国内目前来看,这约5-10万的AI技术人才,对比AI产业的高速发展需求,两者之间有巨大矛盾。那怎样更好的用这些人才作为突破,把人工智能方面的技术人才储备提高到百万级别。这正是整个百度(包括百度的教育合作与共建,包括百度所有对外输出的体系,包括我们今天所做的课程)所努力的方向,我们期望通过百度的技术赋能,真正的帮助人工智能取得更好的人才积累,真正培养一些在未来对人工智能行业有巨大贡献的专业人才,这是百度现在的定位目标。
AI浪潮已然到来,行业人工智能时代已经到来。目前,人工智能已经大量应用在2c和2b领域,怎么让人工智能跟具体行业有更好的接触,产生更多的积累,是我们正在重点探索的方向。
比如百度的搜索引擎,已经融入了很多AI元素。模糊匹配、拍照识图、深度挖掘检索等都应用到了大量的人工智能技术。
再如推荐系统,他会基于个人的一些喜好和历史阅读习惯来给用户做一些内容的推荐和匹配,这是很典型的结合大数据做的精准应用,实际上也属于人工智能的范畴。
再如人脸识别技术、语音技术、智慧交通和无人驾驶等,都是AI技术与行业应用的融合,并且这些技术正在不断取得突破。百度现在L4级别的无人驾驶车已经初步实现了一些小规模的量产,未来会有更多的人将真正的体会到无人驾驶给生活带来的便利。
3.AI与百度3.1百度AI的发展历程
上图为百度在人工智能领域的发展轨迹,早在2009年,百度就开始尝试探索人工智能相关技术,直到2019年,百度用了近十年的时间布局人工智能。
2009年尝试性布局人工智能,2013年发布IDL,2014年成立硅谷实验室以及百度研究院,2015年首次发布DuerOS,2016年发布百度大脑1.0版本,同年,百度的自动驾驶技术进入试运营状态,2017年是百度人工智能技术高速发展的一年,不仅成立了深度学习国家实验室,同时也成立了硅谷第二实验室以及西雅图实验室,并且Apollo平台开始运行并对外推广,在2018年到2019年,DuerOS和Apollo平台发展到3.0版本,百度大脑发展到5.0版本。经过近十年的发展和积累,百度的人工智能技术目前处于相对领先的位置。
百度在人工智能领域领域取得的进展有目共睹,比如,百度成立了首个国家级AI实验室;2016年被美国《财富》杂志评选为深度学习领域四大巨头之一;百度的刷脸支付、强化学习、自动驾驶等技术入选MIT2017年全球十大突破性技术;在AI领域,百度的中国专利申请超过2000项。
3.2百度AI的技术体系
百度的技术体系非常全面,覆盖了计算体系、大数据技术体系以及人工智能技术体系等,在机器学习、深度学习、区块链、知识图谱、自然语言处理、量子计算等领域均有雄厚的技术积累。这些技术可以按内容划分成三个板块,第一是A板块(即AI技术板块),第二是B板块(即大数据板块),第三是C板块(即云计算板块)。这就是百度在2016年提出的ABC概念。从一开始的1.0版本,发展到如今的3.0版本,代表着百度在人工智能领域的整体布局。在人工智能领域的布局中,百度的探索不仅停留在最核心的技术上,也同时将核心技术与更多的领域相结合,如边缘计算、物联网(InternetofThings,IoT)和区块链等,得到了如ABC+区块链、ABC+DuerOS、ABC+Apollo等对外输出模式,向各行各业提供解决方案。
在A板块中,将百度大脑分成了不同的层次。最底层是算法层,包含机器学习和深度学习算法,使用百度的PaddlePaddle深度学习框架提供算法层的基础支撑;算法层之上为感知层,感知层可分为对声音的感知和对光的感知,其中,对声音的感知主要是语音技术板块,对光的感知主要是图像技术、视频技术、AR/VR等技术板块;在感知层之上是认知层,认知层更多的是处理人类听到和看到的内容,对其进行深度理解,深度理解需要自然语言处理(NLP/NLU)、知识图谱等技术作为支撑,同时也需要积累大量用户画像数据,这些技术能帮助人们快速的理解和分析人类听到和看到的内容,并对内容进行有效的反馈,这是认知层面的技术;在认知层之上是平台层,平台层将底层的内容进行融合、封装,对外提供开放、完整的AI技术,并引入大量的生态合作伙伴,共同探讨人工智能产业的布局。
百度人工智能整体技术体系,最底层是深度学习框架飞桨PaddlePaddle,作为底层计算框架,飞桨PaddlePaddle支撑着上层场景化能力与平台中的全部板块。在场景化能力与平台中,包含了诸多场景大板块,每个大板块下又细分为多个技术板块,比如语音板块包含了语音合成以及语音唤醒等技术板块;计算机视觉技术中的OCR技术,包括传统通用OCR识别,以及垂直领域OCR的识别,可以对30多个OCR识别领域进行精准识别,比如票据识别、证件识别以及文字识别等;在人脸/人体识别板块,同时也会引入图像审核以及图像识别方面的技术;在视频板块,有视频比对技术,视频分类和标注技术,以及视频审核技术;在自然语言处理板块,有机器翻译技术;知识图谱板块,有AR/VR技术。这些板块构成了人工智能体系的技术蓝图。
近两年来,人工智能技术在各行各业中的应用不断加深,实践证明,单一的技术在落地时会受到诸多限制,所以现在人工智能在落地时可能不仅仅用到某一个单独的技术板块,而是需要先把这些板块进行融合,然后再进行实际应用,比如在拍照翻译的应用场景下,既需要用到OCR技术,同时也用到NLP技术。因此在实际应用中,需要综合各个板块的技术,把不同的技术体系和技术内容有机地融合起来,再去解决行业中面临的痛点。
3.3百度AI的场景化应用
2014年到2015年期间,在计算机视觉领域的部分场景下,计算机视觉识别准确率已经超过了人眼识别。而利用深度学习技术的计算机听觉识别,在2017年左右也已经超过人耳听力极限。
人工智能业务场景化不仅依赖底层的硬件资源,也需要超大规模的标注数据,这是监督学习的特点,所以在人工智能早期研究中,有评论说“有多少人工就有多少智能”,这句话在特定角度来看是具有一定意义的。在监督学习中,训练模型需要庞大的标注数据,再结合GPU强大的数据处理能力去训练特定模型,也就是从算法的层面去做更多的工作,在训练模型的过程中需要发挥人的主观能动性,更好的解决在行业应用中出现的一些痛点,构建出行业专属的模型。
比如,将人体分析技术应用到实际行业场景中时,需要结合人脸识别技术和人体识别技术。可以通过基础手势识别,识别一个人在开车时有没有系安全带、是不是在打电话等。
利用人体分析技术,可以做到行为识别,首先设定特定区域,然后对区域内的人员行为进行识别,比如人群过密、区域越界、人员逆行、徘徊以及吸烟等,在特定场景下,行为识别能够帮助用户避免安全隐患。
自然语言处理有很多相关技术,比如说词法分析、词向量表示、语义相似度、短文本相似度、情感相似度分析等。这些技术用在不同的应用场景下。
在公检法系统应用中,为了避免出现非常严重的问题,如同案不同判,具体解决方案是当诉讼呈递给法官时,根据当前诉讼内容在公检法系统中寻找历史上类似的案件,参考历史类似案件的判决,给法官提供判案依据。
在媒体领域应用中,对基础的财经类新闻,可以由机器进行新闻文章的编写,即机器写作。这些技术都是基于NLP在相应领域做的智能化应用,可以让编辑或记者从重复性的工作中解脱出来。
人工智能从广义上来看,也包括大数据及云计算相关技术,这些技术也都涵盖在百度AI技术体系中。在大数据领域,主要包括数据采集、数据存储、数据分析以及数据可视化等,利用这些技术,我们在进行模型训练的时候,对数据进行科学的管理可以帮助我们提高模型训练效率。
百度AI技术体系也提供算力层面的支持,通过GPU服务器以及FPGA服务器提供的算力,更好的解决应用层面的问题。
百度AI就是这样一个从基础层,到感知层、认知层的完整体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。
回顾本篇文章,我们和大家分享了人工智能的相关概念,人工智能的发展历程,从中也可以看出AI是我们的历史机遇。同时本文也为大家详细介绍了百度的AI技术体系,经过10余年的努力,百度AI已经形成从基础层,到感知层、认知层的完整技术体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。
python 人工智能项目代码
关于Python有一句名言:不要重复造轮子。
但是问题有三个:
1、你不知道已经有哪些轮子已经造好了,哪个适合你用。有名有姓的的著名轮子就400多个,更别说没名没姓自己在制造中的轮子。
2、确实没重复造轮子,但是在重复制造汽车。包括好多大神写的好几百行代码,为的是解决一个Excel本身就有的成熟功能。
3、很多人是用来抓图,数据,抓点图片、视频、天气预报自娱自乐一下,然后呢?抓到大数据以后做什么用呢?比如某某啤酒卖的快,然后呢?比如某某电影票房多,然后呢?
我认为用Python应该能分析出来,这个现实的世界属于政治家,商业精英,艺术家,农民,而绝对不会属于Python程序员,纵使代码再精彩也没什么用。
以下是经过Python3.6.4调试通过的代码,与大家分享:
1、抓取知乎图片
2、听两个聊天机器人互相聊天(图灵、青云、小i)
3、AI分析唐诗的作者是李白还是杜
4、彩票随机生成35选7
5、自动写检讨书
6、屏幕录相机
7、制作Gif动图
1、抓取知乎图片,只用30行代码:
importre
fromseleniumimportwebdriver
importtime
importurllib.request
driver=webdriver.Chrome()
driver.maximize_window()
driver.get("https://