人工智能+药物设计，华东师大团队加速推进！人工智能药物研发创新论坛

发表时间：2023-07-28 06:17:54

人工智能+药物设计，华东师大团队加速推进！

来自中国科学院上海药物研究所、复旦大学、浙江大学、四川大学、同济大学、华东师范大学、中南大学、华东理工大学、上海科技大学等单位的与会专家学者就人工智能算法前沿、药学知识图谱、药物设计等诸多领域的研究进展进行了分享报告，并与包括出版社编委在内参会的80多位参会嘉宾展开了热烈的讨论。与会书编委围绕该领域方向的有组织科研模式探索、教材编撰等系列工作进行了研讨。

会议重点围绕人工智能药物研发领域的关键科学问题，汇聚了该领域优势科研力量，通过推动多学科融通合作，联合研讨国家科研任务，从而探索“教育、科技、人才一体化”融合发展的交流合作实践范式。

新书由24位中青年科学家联手编著

钱旭红院士指出，随着人工智能与药物设计技术的不断融合，药物开发将会更加快速、高效、低耗，人工智能技术将进一步推进药物靶标发现、合理药物设计、药物再利用等研究领域的持续创新发展。

在人工智能深入推进并与药物研发融合的浪潮中，多学科交叉的复合型人才培养是重中之重，而国内外人工智能与药物设计交叉融合书籍极度缺乏。

新书《人工智能与药物设计》由华东师范大学药学院（筹）院长、人工智能新药创智中心主任李洪林教授及中国科学院上海药物研究所郑明月研究员主编。

本书的著作初衷主要为领域内提供系统的专著，因而召集国内外从事人工智能与生物医药交叉研究的科研工作者共计24人联手著作。

发布会上，李洪林介绍了《人工智能与药物设计》的成书历程。该书2019年8月酝酿编著，2021年6月开始写作，于2023年6月底正式出版发行。华东师范大学人工智能新药创智中心李洪林教授、李诗良研究员、胡乔宇副研究员及计算机科学与技术学院兰曼教授是本书的编委。

新书以药物研发历程为书籍脉络，从人工智能算法基础、数据基础与表征到人工智能与药物设计三个不同维度，深入探讨了人工智能技术在药物研发每个关键阶段最前沿的应用实例与先进技术，剖析和展望了广泛的应用前景。

受众面向有兴趣开展学科交叉研究的深度学习初学者、进阶者及工程师，同时包括生物和医药相关专业的本科生、研究生和研发人员。

华东师大人工智能新药创智中心

华东师范大学于2022年成立人工智能新药创智中心，作为校管科技平台，聘请李洪林教授为中心主任。

中心按照人工智能引领多学科交叉、产学研教融通的创办理念，通过培养和发展高层次人工智能药学人才，推动学校人工智能药学新兴学科建设并促进药学一级学科发展，建立国内外领先的人工智能药物设计方法和平台，形成人工智能助力新药发现基础研究和临床医学转化的良性循环。

中心包括4个功能平台：人工智能药物设计平台、人工智能药物合成平台、药理药效学评价平台、药物分析及药代动力学平台。

此外，华东师范大学与临港实验室签署协议共建药学院，旨在以国家战略为牵引，探索新型举国体制下构建实验室体系的新模式，定制化培养国家战略任务需求的高精尖缺药学人才。

华东师范大学目前在人工智能与药物研发方面也取得了许多重大的研究成果，如开发了多种底层AI新算法，包括新型Transformer框架、多形态知识抽取和数据挖掘技术；发展了基于大数据和机器学习的新型密度泛函；构建了多个AI靶标发现、药物设计和分子智能制造的软件平台；设计了系列用于超限制造的微纳流控芯片；并且基于上述AI技术和智能化平台，针对重大慢病，如心脑血管、肿瘤等开展示范应用，成功发现并转化了多个候选新药。

图文、来源｜科技处人工智能新药创智中心

编辑｜吴潇岚

更多阅读

华东师大主题教育调研成果交流会：守正创新同题共答迈向高质量发展

高中生来了，华东师大一周深度体验！

聚力发展共谋教育强国，华东师大从严从实开展调查研究

国际顶级盛会开幕，授予华东师大教授前沿科学奖！

华东师大人才发展战略研究院揭牌！返回搜狐，查看更多

AI+药物研发：人工智能赋能新药研发（人工智能应用案例）

首先，生物制药行业面临着两个挑战：第一，新药研发周期很长且非常复杂；第二，药物研发过程成本昂贵。在1950年的时候，十亿美元可以研发几十个药，到了2020年之后，十亿美元只能研发一个药（如下图），所以就需要大量的投入。

随着对药物审批过程的要求越来越严格，对药物副作用的要求越来越高，使得新药的研发变得越来越慢。如果我们能把研发时间减半，成本减半，再加上巨大的市场需求，这个领域是具有广阔前景的，所以最近很多投资或者AI方面的研究，都在朝着这个方面发展。

之所以会如此有挑战，是因为背后复杂数据，或者复杂的生物机理造成的。如果我们能够对复杂的数据与机理进行更好的分析研究，也许我们就可以把时间与成本减半。

那为什么这么复杂。首先人体是非常复杂且多尺度的网络，有各种各样不同类型的器官（上图），不同的器官有它自己的疾病，但是器官绝对不是一个独立的个体，它是一个网络，一个系统。如果你看单个器官，里面有各种各样类型的细胞，它们之间互相交互，互相传递信息协同，才能完成一个器官的功能。不同的细胞之间有信号串扰，有各种各样的细胞因子，它们之间会影响彼此，每个细胞有不同的功能和形态才能产生它的方式，所以组织层面是非常复杂的细胞网络。

如果单看一个细胞，里面也是有很复杂的网络构成，细胞里面经常提供的是蛋白质，可能在细胞膜上，也可能在细胞里面，这些蛋白质不是以独立个体的形式在工作，而是通过互相作用的方式来产生功能。比如：在细胞膜表面蛋白，在接受外界的刺激后，会把信号传递到细胞里面，通过一个非常复杂的网络来实现某种机理，比如说，分泌更多的某种物质，或者是产生更多的能量，甚至回过去调控基因的表达，让某种蛋白变的更多。

我们要理解并治疗某个疾病，就要多尺度多角度的考虑，既要看组织层面，又要看分子层面，并找到疾病的靶点，才能有针对性的进行治疗。

现阶段很难对人体的各个维度的数据同时做一个精准的测量，因为需要同时对各个尺度采集数据。在整个个体层面，有各种各样很大的数据，且数据量增长速度比摩尔定律还要快。

所以可以想象，这么大量且复杂的多尺度的数据，要对它进行分析，并从中间抽取非常微妙的信号来理解疾病，寻找疾病的靶点，目前已经超越了传统的生物学家或者是医学家的手工分析工具的能力，所以他们会需要基于AI的方法，基于大数据分析的方法，能够把各种各样的数据进行某种整合、分析，从中间抽取一些信息。自动化该过程，才有可能跟上数据的复杂程度和数据的量，然后从中间找到一些有用的信号。

通过分析数据和多样的模型，可以对各种各样的东西做预测，比如：可以预测这个蛋白是不是疾病的靶点，扰动这个细胞，是否会产生某种现象？这些都可以通过模型预测，但预测完后，还需要做试验，比如说细胞的实验，去验证模型的预测是不是正确。

这也是这个领域的一个挑战，传统的生物实验室是一个非常开环的环境。首先实验人员对细胞进行某个扰动，再去测量这个细胞状态的变化，收集各种各样的数据。在这个过程之后，会有几个分析人员，拿到实验室做个简单的分析，交给实验室主任或者教授来判断并决定下一个实验。这个过程虽然是一个闭环的过程，但这个闭环的速度很慢，可能是几周时间甚至更长时间。

我们可以把生物实验的环境和推荐系统做一个对比，很多互联网公司很多情况下得益于推荐系统非常精准的推荐及推荐系统高效的迭代。如果把这个推荐系统对用户展示的前端页面看成是个实验环节，推荐系统的前端可以展示推荐算法和模型推荐的产品，在展示之后，可能这个APP有几亿人在用，如果推荐算法推荐得好，就能看到推荐产品的人，在很短的时间内点击购买推荐的产品。如此，就知道这个推荐算法好坏与否，如果推荐的东西没有被点击没有被购买的话，可能是推荐算法不太好。所以，无论用户是否点击了推荐产品，都会是一种隐含的的反馈，这些数据都会存在这个APP或对应的数据中台里面，可能隔夜或者隔周要迭代推荐算法模型，当这个模型迭代以后，会很快更新上线，然后会做一个更新的推荐。如果能把实验的环节和数据分析以及决策的过程，更加好的闭环自动化，也许会有更高效的方式去验证并发现一些新的靶点或者新的药物。

如果能够建立一个平台，使AI和实验环境如推荐系统高效跑起来，实验的数据可以自动落到数据中台，包括生物实验的实验基数据，及部分图像数据或其他数据，都能落到中台的话，就会有一组AI模型对各种类型的数据进行分析，以及对这些数据进行整合，产生新的预测,进而推进实验（下图）。

除此之外，我们不仅有自己的湿实验平台及实验平台和AI模型闭环的系统，还会对很多前人已经研究的成果进行一个集成，因为过去几十年的生物信息学和计算生物学研究过程，已经产生了非常多的公开数据，包括如蛋白质相互作用的数据，及基因表达数据，我们都会整合到知识库里。

我们的卓越计划中，也会和部分国内的大医院合作，去收集针对某个疾病设计的一些队列数据。

这个大模型涉及到三个问题：

第一，如何发现一个药物靶点？第二，如何针对某一个已经发现的药物靶点，做一个对应的药物优化?

第三，如果要做实验，在实验平台里面产生数据如何分析，包括图像数据的分析。

基于以上，今天我主要从靶点发现、药物优化、验证三个方向阐述。

首先，靶点发现（下图）。

其实刚才我也提到，理解一个疾病发现一个靶点，实际上我们要分析复杂的多尺度的系统。通常情况下，描述复杂系统最好的方式就是复杂网络，在细胞层面的复杂网络每个节点就是一个蛋白质，它们是连接成一个非常复杂的网络，这个蛋白质被激活可能去激活其他的蛋白质，然后其他几个一起形成一个复合体以完成某种功能，这个图比互联网的人与人之间的交互图更加复杂，它叫做超图，它的每条边并不是只涉及两种蛋白质，有可能是几个蛋白质一起形成新的相互作用，才能产生后面的功能，因此是一个复超图。如果要分析某个节点是不是一个区分癌症组织和正常组织的蛋白质或者生物标志物。以及假设激活或抑制一个蛋白质会带来怎样的下游效应，这些都是和靶点相关的预测问题。

可以想象，他的输入是一个复杂的的超图，它有超图上的各种各样的分类问题或者是预测，甚至是回归问题。甚至预测组合效应如果我同时按下两个按钮，它会产生什么样的影响？

超图是一种类型，对于每一种类型的数据，包括蛋白质，RNA还有基因序列，可以做实际数量的测量，比如：蛋白质在这个细胞里面有多少，基因表达了多少，这个序列的三维组织结构是怎样的。这些信息可以映射回这个网络里面每个节点上的。所以，除了超图连接上的复杂之外，每个图的节点也蕴含着非常复杂的信息，可以想象很多做社交网络分析的一些方法，被扩展或者修改甚至进行一些新的创建，才能分析这种复杂的这种超图结构。

其次，假如你已经发现了一个靶点（上图），发现其中某个蛋白质是关键节点并希望能激活，抑制它，就需要设计一个药物来做这件事。靶点在细胞内，你需要一个小分子进入到细胞里面去，如果这个靶点是在膜蛋白或者在细胞膜表面，你要用另外一种蛋白的方式去激活或者抑制它。很多情况下蛋白质工作与否，实际上是和它的三维结构很大关系。蛋白质一开始的时候是一条序列，细胞里面涉及的分子不管是DNARNA还是蛋白质甚至小分子它都有对应的三维结构。火爆的AF2就是根据蛋白质序列预测蛋白质的三维结构。假如我们对三维结构有很好了解之后，我们就可以对它的功能有更加准确的理解。因为蛋白质和蛋白质之间的相互作用，其功能是因为两个蛋白质有一种像钥匙和锁的一个关系，它们只有能够对上且对得很好的情况下，它的功能才会被完全发挥出来。

最后，我想讲一下（上图），这方面涉及到的一些问题和挑战。我们的实验平台，会产生大量的图像数据。它们不单单是单个细胞图像数据，有可能混合几种不同的细胞，而且这个细胞它可能不单单是一个黑白的图像，也有可能是一个有6种颜色的图像，是一个叫高内涵的图像。在这种情况下要对它做各种各样的，比如说细胞的检测，它的分割及形态的描述，然后进行各种各样的更加细致的分析。所以很多细胞视觉研发思路甚至最先进的研发思路都在做这个。除此之外，实验的平台是和AI模型有个闭环，所以如何把AI的模型的预测结果来指导实验的下一步，也有很多AI或者机器学习的算法可以去探索，包括主动学习，贝叶斯优化或者是在线学习各种各样的方法。可以想象，都会在AI模型和实验闭环中产生非常大的作用，比如减少实验的次数。每次实验产生的信息足够多，就能够帮助更快地发现一些有效的药物，发现一个合理的靶点。

在处理这些实验的数据时，有的情况下会叫人来打标。它需要有生物背景本科或者博士生医学背景的这些人员才可以。如果能够使用尽量少的打标数据或者有选择性的打标，很快能够得到一个比较精确的模型。

那如何让AI模型和人一起产生协同作用，能够把任务做得更好，就可以尝试把模型迭代更新与打标人员放在一起，建立系统，让模型提出一些候选对象，然后让人员对这个候选对象或者不同水平的人员，对不同的打标需求做匹配。

讲了这么多，结束前我想回到复杂系统。每个复杂网络节点的结构的数据分析，及各种各样的AI问题，需要各种类型的AI人才去合作，去理解这个疾病，才能把这个靶点和这个药物找到。

人工智能+药物设计，华东师大团队加速推进！ 人工智能药物研发创新论坛