如何应对人工智能教育应用中的伦理挑战10篇高下载量论文发送给您!
教育人工智能伦理问题与伦理原则探讨摘要:文章旨在揭示智能化时代的教育将面临哪些新的伦理问题,并在人工智能伦理和教育伦理的基础上,探讨教育人工智能的伦理原则。运用文献研究和逻辑推理方法,系统梳理了教育人工智能应用的特点和优势,及其可能引发的新的伦理问题:(1)角色层面,系统创建者、教师、学生和监测员等利益相关者将面临更加复杂的伦理困境;(2)技术层面,涉及自动化决策伦理问责、算法伦理和数据伦理等方面的问题;(3)社会层面,可能转变就业市场、改变人际关系和引发新的社会不公平。因此,需要对教育人工智能伦理问题的复杂性有充分的认识,同时需要遵循一般的人工智能伦理原则和教育伦理原则,其中,最核心的内容为二者之间的交集,具体包括:(1)福祉;(2)是非善恶;(3)公平正义;(4)人权和尊严;(5)自由自治;(6)责任和问责。
关键词:教育人工智能;人工智能伦理;教育伦理;数据伦理;算法伦理;伦理原则;作者:邓国民;李梅来源:电化教育研究.2020(06)39-45点击此处查看论文原文 人工智能时代的教育风险及其规避 摘要:近年来,有关"人工智能+教育"的研究如火如荼,在教育学界掀起了一股"人工智能热"。人工智能的教育应用具体可分为教学类、学习类和管理类,运用风险理论对人工智能的教育应用进行分析,文章发现人工智能时代的教育存在智能教育治理风险、技术风险、伦理风险以及教师职业替代风险等潜在风险。为有效规避这些教育风险,文章提出在未来教育变革中应正确认识人工智能与教育的关系,探索人工智能教育精准治理新范式,推进人工智能教育应用的伦理建构,以及培养人才适应、驾驭人工智能的关键素养。关键词:人工智能;未来教育;教育风险;风险规避;
作者:吴河江;涂艳国;谭轹纱
来源:现代教育技术. 2020(04)18-24
点击此处查看论文原文
人工智能在教育应用中的伦理风险与理性抉择 摘要:教育是人类社会文明发展的重要领域,人工智能在教育领域的应用,对教育产生了革命性的影响;同时,也给教育伦理带来了一系列风险和挑战。人工智能在教育应用中导致的伦理困境和可能面临的伦理风险,主要表现在人工智能与教育主体的权利嬗变、算法推荐与学生个性的发展异化、人工情感与人机互动的情感危机、智能感知与教育数据的价值困境这四个方面。为了防范和消除这些伦理风险,"以人为本""以德为先""以法为界"是人工智能在教育应用中的理性选择,教育责任则是"可信赖的人工智能应该做什么"伦理准则的实践指向。关键词:人工智能;智能教育;教育伦理;教育大数据;人机伦理;技术异化;
作者:冯锐;孙佳晶;孙发勤
来源:远程教育杂志.2020(03)47-54
点击此处查看论文原文
人工智能教育伦理的多维审视——基于马克思技术批判和人的全面发展理论 摘要:马克思认为,技术异化会带来人的异化和教育的异化,技术并不必然向善的方向发展,技术从发明走向成熟都需要经历一个批判的过程。人工智能引发包括教育在内社会各领域的连锁反应,技术进步的已然性和社会适应的滞后性构成了社会系统平衡失调的基本矛盾,需要通过对技术的伦理批判完成技术的社会化改造。把技术批判的场域由"工作场"转移到"学校场",对人工智能教育进行价值审视、公平性审视、人性审视、责任审视和终极目标的审视,目的在于防范人工智能异化的风险并促进人工智能教育更好地发展。关键词:马克思技术批判;人工智能;伦理;
作者:苏明;陈·巴特尔
来源:西南民族大学学报(人文社科版).2019(11)223-228
智能时代的生命进化及其教育 摘要:回到原点,在智能时代重新认识人,找寻人的自我价值。探讨面对进化与重生的人类,教育何为。与此相关,如何重新审视教育实践的意义、如何理解教育与社会的关系、如何重新厘定教育实践的目标、教育要培养什么样的人、教育者与受教育者的关系是什么,这些教育实践中的基本问题,都会在人工智能时代重审和改变。智能时代的教育理论研究,需要接续思想传统、改变思维方式、确立学科立场。智能时代的教育政策制定,需要明晰政策导向、加强政策整合、深化政策创新。关键词:智能时代;生命进化;教育;实践;理论;政策;
作者:李政涛;罗艺
来源:教育研究. 2019(11)39-58
点击此处查看论文原文
论教育与机器人的关系 摘要:在第四次工业革命方兴未艾的数据时代,教育学在研究、讨论教育与人的发展关系、教育与社会发展的关系时,需要以"教育与机器的关系"为中介。教育学应该从哲学本体论、价值论层面上思考和研究"教育与机器的关系",机器及其发展成为人与社会发展的一部分、机器成为教育者与受教育者本身、教育结构的变革建立在人工智能技术革命之上、学校成为万物互联的新型社会组织、机器发展与教育发展水平相互制约,都是必须面对和探讨的几个重要命题。这需要教育学及其研究作出变革,倡导建立新的教育发展观,探索建立信息化的教育学理论体系,研究构建"人工智能+教育"的政策体系。关键词:教育;人工智能;机器;关系;学科基础;
作者:刘复兴
来源:教育研究. 2019(11)28-38
点击此处查看论文原文
智能教育时代下人工智能伦理的内涵与建构原则摘要:在智能教育时代,人机如何共处是人工智能伦理建构的关键。文章首先从技术悖论视角,厘清当前人工智能应用于教育在技术滥用、数据泄露、智能教学机器的身份与权力边界等方面存在的伦理挑战与困境;其次,利用内容分析法,结合多国与国际组织政策文件,对人工智能伦理相关的伦理要素进行分析与抽取,发现政府、高校、国际组织文件中多次提到的价值、人类利益、安全、隐私、责任等关键要素;最后,基于人机共处的考量,结合人工智能在教育领域的应用现状和伦理关键要素,归纳分析出智能教育伦理需遵循的原则,包括问责原则、隐私原则、平等原则、透明原则、不伤害原则、非独立原则、预警原则与稳定原则。
关键词:智能教育;人工智能;机器伦理;国际政策;原则;APETHICS模型;作者:杜静;黄荣怀;李政璇;周伟;田阳来源:电化教育研究. 2019(07)21-29点击此处查看论文原文基于人工智能的生物信息学研究:机遇和挑战
2021年12月26日,中国计算机学会青年计算机科技论坛(CCFYOCSEF)武汉分论坛举办线下技术论坛(论坛编号:CCF-YO-21-WH-5FT)。本次论坛以“基于人工智能的生物信息学研究:机遇和挑战”为主题,邀请了陕西师范大学、西北工业大学、邵阳学院、华中农业大学、中国地质大学(武汉)、的专家和学者作为论坛嘉宾进行发言和思辨点讨论。本次论坛由YOCSEF武汉AC、华中农业大学教授章文,YOCSEF武汉AC、华中农业大学讲师刘世超共同担任执行主席;YOCSEF武汉AC、湖北大学副教授肖奎,YOCSEF武汉通讯AC、江汉大学讲师刘哲共同担任线上执行主席;华中农业大学为本次论坛提供了支持。本期技术论坛,邀约生物信息学领域相关的专家学者,针对“基于人工智能的生物信息学研究:机遇和挑战”进行主题讨论,分析生物信息学领域面临的主要挑战,探讨人工智能技术应用在生物信息学领域中存在的若干重要问题,探索生物信息学人才培养的痛点与解决之道,把握生物信息学领域未来发展的潜在机遇。
“基于人工智能的生物信息学研究:机遇和挑战”技术论坛
论坛的引导发言环节邀请了3位嘉宾,分别是:陕西师范大学教授雷秀娟、西北工业大学教授施建宇以及邵阳学院教授黄国华。作为中国人工智能学会生物信息与人工生命专委会常务委员,雷秀娟教授带来了题为“基于人工智能的多组学数据与疾病的关联关系预测”的引导发言。雷秀娟教授首先介绍了生物信息学在多组学和疾病方面的研究应用,主要是通过多组学模型来预测疾病,所有的组学信息之间都是有相互联系的。雷教授团队整理制作了多组学与疾病的关联数据库CircR2Disease数据库V2。目前生物信息学研究的热门包括挖掘出生物学实体之间的关系之后,找出疾病靶标。网络特征学习可以采用一些通用的深度学习方法。相似性网络的构建方面,包括相似性计算差用的方法有疾病语义相似性、序列相似性、基因关联相似性等。网络特征提取方法常用的包括表示学习、图神经网络等。评价方法可采用常用的机器学习评价方法,包括混淆矩阵、ROC曲线等。损失函数方面常用Sigmoid、ReLU、LeakyReLU等。CircRNA与RBP结合位点的研究,是利用生物信息学的方法准确解析分子之间的调控机制对探索人类疾病的机理。雷教授团队在生物信息学方面取得了诸多研究成果:提出了CSCRsites方法、circRB方法、CRPBsites方法。CircRNA与疾病的关联关系预测的研究方面,提出了RWRKNN方法、CDWBMS方法、PDC-PGWNNM方法、EDNMF方法、AANE&SAE方法、PCD_MVMF方法、GATCDA方法。代谢物与疾病的关联关系预测的研究方面,提出了SSABCMDA方法、LGBMMDA方法、MDAGCN方法、DWRF方法。微生物与疾病的关联关系预测的研究方面,提出了LGRSH方法、HNGFL方法、MDHN方法。
基于人工智能的多组学数据与疾病的关联关系预测
随后,施建宇教授作为中国计算机学会生物信息学专业委员会等3个国家一级学会的专业委员会委员,结合生物信息学研究的经验与心得,进行了题为“Compound-ProteinInteractionPredictionbyDeepLearning:Databases,DescriptorsandModels”(通过深度学习预测复合蛋白质相互作用:数据库、描述符和模型)的引导发言。施建宇教授分析了当前药物开发的大体趋势,即药物开发是个大工程,大致需要三个“十”:十年成本、十亿美元、十亿销售额。对于如此复杂庞大的工程和研发,需要跨专业科研人员的合作。靶点识别主要由生物学家来完成,而计算机科学家主要专注于化合物分析、化学结构分析、物理特性分析等。目前,AI可以帮助和加速药物研究,传统药物研究中小分子筛选需要11个月的流程,利用AI辅助可以减少至23天。药物化合物的研究中,预测某个化合物会不会和蛋白质进行相互作用。深度学习方法可以很好地帮助CPI(Compound-proteinInteraction)的研究,其本质不在于分类能力,而在于深度学习的神经网络对化合物的结构化序列的刻画能力。化合物描述子的构建需要很强的领域知识,包括1D序列分析、3D结构分析等,而卷积神经网络所具备的强力的数据特征刻画能力,可以很好地帮助化合物描述子的构建。可采用的深度学习模型包括诸多经典的卷积神经网络结构、Attention-based模型、Bindingcomplex-based模型等。对于未来的研究趋势,施建宇教授认为下列问题都非常值得深入研究:(1)如何利用生物信息学领域中大量的未标定数据;(2)如何利用大量现有的序列数据,将其迁移到3D结构的研究中;(3)如何利用深度学习模型进行单细胞测序,等等。
Compound-ProteinInteractionPredictionbyDeepLearning:Databases,DescriptorsandModels
作为最后一位引导发言嘉宾,黄国华教授进行了题为“RNA序列的语义性及其在修饰中的应用”的引导发言。黄教授首先介绍了生物信息学研究的起源,生物信息学的研究可以追溯到1953年在Nature上发表的DNA双螺旋结构论文。DNA测序是DNA研究中的重要主题之一。全球目前大约有1700个DNA序列数据库,其中代表性的数据库包括INSD、库、EMBL库、BioSino库等等。DNA序列分析主要关注DNA序列比对,分析DNA的同源性。计算生物学的一个重要主题就是比较序列并尝试找出两个序列的公共部分。序列比对包括全局比对、局部比对、双重序列比对、多重序列比对等。其优点是通过计算找到同源分子片段,确定其功能;缺点包括计算开销大、对于没有同源性的序列不可使用、完全是形式决定内容而没有解决一词多义的问题、忽略了个体之间的联系。自然语言处理技术所解决的问题与DNA序列对比问题的本质非常相近,因此采用NLP技术解决DNA序列对比问题具有如下优点:(1)捕捉句子的抽象语义关系;(2)能够全面解释句子含义;(3)内容决定形式。在生物信息学领域中常用的人工智能技术和神经网络结构包括word2vec、CNN、LSTM、Attention、Transformer。语义性在RNA序列中的重要应用包括蛋白质翻译修饰PTM(Post-translationalmodifications),即通过调控修饰位点来改善或治疗疾病。对于PTM问题,黄教授团队提出了LSTMCNNsucc模型结构。对于RNA修饰问题,黄教授团队利用CNNLSTM结构实现了RNA序列的特征提取。
RNA序列的语义性及其在修饰中的应用
在思辨环节,参与论坛的所有专家和老师就以下三个议题进行了激烈的探讨:(1)从支持向量机到深度学习,人工智能的发展是否加速了生物信息学问题的解决?(2)聚焦“四个面向”战略部署,人工智能是否带来了生物信息学研究的新范式?(3)人工智能时代,生物信息学研究需要什么样的人才?这三个问题也是目前生物信息学领域需要面对和解决的问题。
对于“从支持向量机到深度学习,人工智能的发展是否加速了生物信息学问题的解决?”这个问题的思辨,专家和老师们讨论了下列子问题:1.1深度学习是否已经取代了传统的人工智能技术?1.2人工智能的哪些关键技术是未来研究的明日之星?
华中农业大学冯在文副教授认为,深度学习技术确实已经在很大成程度上取代了传统的机器学习技术,但传统的机器学习技术也不能被完全抛弃。目前深度学习技术提出了大量的新模型,但是目前还存在一些问题,例如可解释性、数据样本量的限制、技术落地应用遇到的困难。其中,具有代表性的问题如下:(1)传统的机器学习技术可能精度不如深度学习,但是可解释性优于深度学习模型。(2)深度学习需要大量的样本数据,但是在很多应用领域,例如生物信息学领域,样本量(3)特别是标注后的样本量还非常受限。因此,对于生物信息学领域中的很多实际应用问题,例如生物大数据问题,还是依赖于传统的优化方法和搜索算法。
中国地质大学(武汉)唐厂教授认为,对于深度学习是否取代传统的机器学习方法的问题,要考虑具体的研究和应用领域。深度学习效果好的前提是要有充足的算力和充足的训练样本。但是实际工程应用中,很多终端的计算能力非常有限,因而实际应用场景中仍旧采用传统的机器学习方法,依旧可以取得不错的应用效果。生物信息学中的关联关系研究,最终需要靠临床医生去验证,因此深度学习不可完全取代传统的机器学习和数据分析方法。深度学习在某些领域和场景可以获得比机器学习方法更好的效果,但是不能一概而论地说深度学习完全取代了机器学习。
华中农业大学章文教授认为,目前生物医学领域的很多研究者仍旧倾向于传统的机器学习模型,因为深度学习的模型得到的结果难以设计医学实验进行验证。
武汉理工大学李琳教授表示,人工智能NLP领域中目前常采用基于大规模数据样本预训练得到的模型。那么对于生物信息学领域的问题,是否也可以采用预训练模型来获得更好的效果?对于多种类型的数据组合问题,已有的联合表示学习等技术是否可以应用在多组学的研究上?此外,在NLP领域,目前的研究发展趋势是依赖预训练模型抽取的大规模样本的先验知识,然后让下游任务贴合上游得到的特征抽取结果。那么生物信息学是否也可以采用类似的机制?
思辨问题1:从支持向量机到深度学习,人工智能的发展是否加速了生物信息学问题的解决?
在“聚焦’四个面向’战略部署,人工智能是否带来了生物信息学研究的新范式?”的问题上,来自不同领域和方向的专家、老师们也各抒己见,讨论了下列子问题:2.1在哪些重大问题上已经取得了突破?2.2在哪些重大问题上还有待破冰?
施建宇教授认为AI技术在生物信息学领域的应用尚存在如下问题:(1)医疗影像方面,积累了大量的图像数据,可以直接应用人工智能技术辅助诊断工作。但是目前的问题是缺乏统一、权威的评价标准。(2)对于蛋白质的结构预测有个很大的突破。很多蛋白质测定不了结构,因为很多蛋白是膜蛋白,而球蛋白容易测定结构。因此,对于膜蛋白的测定是个非常有前景的研究方向。(3)药物研究的样本数量很有限,例如6000左右的样本数据,如何更好地将深度学习技术应用到小数据样本问题上是个值得研究的问题。(4)深度学习的相关技术,例如Python语言、Pytorch框架等都是国外开发研究的,国内的相关基础技术的研究较为缺乏,需要进一步研究和发展。
黄国华教授则表示,人工智能技术可以用在新型的功能分子的研究上,例如是否可以设计一些类似的功能分子,以促进合成生物的研究和发展。
思辨问题2:聚焦”四个面向”战略部署,人工智能是否带来了生物信息学研究的新范式?
在“人工智能时代,生物信息学研究需要什么样的人才?”的问题上,专家和老师们分析和讨论了如下子问题:3.1从事基于人工智能的生物信息学研究,应该具备哪些基本的知识?3.2生物背景的人才和计算机背景人才,未来谁更有优势?
雷秀娟教授认为,计算机和生物人才的优势不能一概而论,还是需要看具体的领域和问题。目前的研究需要的是高度复合型的人才,需要生物、化学、计算机、信息学等多领域多学科交叉的专业知识。雷教授目前团队中的学生以计算机专业背景为主。
施建宇教授表示,一般来说生物学背景的学生完全不懂数学和计算机,而计算机背景的学生则表示看不太明白生物方面的问题。本身生物信息学就是生物加上信息学,因此需要学生掌握生物学和信息学的基础知识,同时也要掌握最新的人工智能模型和技术。生物学背景的学生只能使用已有的方法来跑数据,对算法和模型本身难以进行研究;而计算机和信息学背景的学生对于实验结果的分析相对欠缺,对数据结果的敏感性不够。因此,学生都应该具备挖掘深层机制的驱动意识。生物和计算机人才都是有优势的,只是侧重点不同。
黄国华教授课题组里面主要是计算机背景的学生,没有生物学背景的学生。计算机学生倾向于写代码写程序,但是对于实验结果的生物学意义缺乏认识和理解,因而计算机学生对于较为复杂的建模感到吃力。因此,计算机学生和生物学学生一起合作、相互互补,才能得到更好的研究成效。
冯在文副教授提到,在2021年国家基金委的研究指南中,生物信息学的大方向是生物大数据的标准化、可视化是一个重要的研究方向,特别是生物大数据的标准化方面。因此,需要形成一个更好的协作机制,方便计算机学生和生物学学生进行讨论、分析、合作。
唐厂教授认为,计算机专业背景强调的是技术和方法,生物学专业背景强调的是机制和原理。只有计算机专业学生更好地理解了生物学的原理和机制之后,才能把技术和方法更好地应用到具体的生物信息学领域的研究中。
李琳教授表示,生物信息学的学生培养方案中加入更多的计算机相关课程,或许能得到更好的人才培养成效,生物信息学的发展主要还是依赖于生物学人才。
武汉科技大学胡威教授表示,生物信息学的培养体系中是否进行了学科交叉的课程设置?如果生物信息学的人才培养体系本身就缺乏计算机的相关课程和知识,是否应该加入相关交叉性的课程?章文教授则回答道,目前华中农业大学生物信息学专业的学生培养体系的课程中,一部分课程跟生命科学专业交叉,而另一部分则涵盖了一些编程相关的课程。即使是在生命科学专业,也是非常欢迎生物信息学学生这样的复合型人才的。
思辨问题3:人工智能时代,生物信息学研究需要什么样的人才?
与会人员合影
本次论坛历时三个小时,通过引导发言、论坛思辨,辨明了生物信息学领域在人工智能时代遇到的新问题和困惑,分析生物信息学领域面临的主要挑战,探讨人工智能技术应用在生物信息学领域中存在的若干重要问题,探索生物信息学人才培养的痛点与解决之道,将更好地推动人工智能深度学习技术在生物信息学领域中的深入应用。
张亚勤:人工智能赋能生命科学——机遇与挑战
生命科学与生物医药领域正在步入数字化3.0时代,AI正在加速生命健康与生物医药领域向着更快速、更精准、更安全、更经济、更普惠的方向稳步发展。——张亚勤
9月26日下午,2021年世界互联网大会在乌镇召开。在数据与算法论坛上,清华大学智能产业研究院(AIR)院长张亚勤院士围绕“人工智能赋能生命科学”这一主题,介绍生物世界发生的数字化和智能化新变革,并分享清华大学智能产业研究院(AIR)在人工智能与生命健康交叉学科发展上的新布局。本次报告由张亚勤院长及团队成员马维英、兰艳艳、黄婷婷共同完成。
(摄影/浙江日报记者李震宇)
随着基因测序技术、高通量生物实验、传感器等技术的发展,生命科学与生物医药领域正在步入数字化3.0时代,数字化、自动化进程加速。健康计算作为一种新型智能科学计算模式,是以人工智能和数据驱动为核心的第四研究范式。它将极大助力人类探索并解决生命健康问题。
人工智能从上世纪五十年代发展到今天,产生了很多不同的算法,尤其是以早期的RNN、LSTM和CNN为代表的深度学习技术,及过去这两年的GAN、transformer-based(BERT和GPT-3模型),预训练模型等等,可以说从我们感知方面语音识别、人脸识别、物体的分类,已经和人达到同样的水平。但在自然语言理解,知识推理,和视频语义和泛化能力方面还有很多差距。另外在算法透明性,可解释性,因果性,安全,隐私和伦理等方面还存在较大挑战。
在可信AI计算方面最近又很多进展,一个例子是联邦学习,这也是清华大学智能产业研究院的一个重要研究课题。联邦学习主要有两种方案,一种是横向联邦学习,它主要面向不同来源特征和模型相同的场景,能够保证相同模态不同来源数据之间的隐私性。另一种叫做纵向联邦学习,它可以处理不同来源的特征和模型不同的情况,能够保证多模态数据之间的隐私性。
我们已经看到,AI正在加速生命健康与生物医药领域向着更快速、更精准、更安全、更经济、更普惠的方向稳步发展。具体体现在,人工智能在蛋白质结构预测、CRISPR基因编辑技术、抗体/TCR/个性化的疫苗研发、精准医疗、AI辅助药物设计等方面的研究已成为国际前沿战略性研究热点。
考虑到这样的学科发展趋势和产业背景,清华大学智能产业研究院(AIR)在“AI+生命健康方向”做了四个研究方向的布局,聚焦在研究“AI增强个人健康管理与公共卫生”、“AI+医疗与生命科学”、“AI辅助药物研发”与“AI+基因分析与编辑”方向。
作为交叉领域研究与应用,AIR认识到人工智能与生命科学、生物医药领域存在较大的知识鸿沟,缺乏面向生物计算的数据集、AI平台、核心算法、计算引擎,同时跨界人才也非常稀缺。针对以上挑战,AIR提出“AI+生命科学破壁计划”,目标是定义AI+生命科学领域的核心前沿研究任务,跨越生命健康领域与人工智能的领域鸿沟,打破壁垒,促进AI与生命科学的深度交叉融合,加速科学发现。
为此,我们需要构建面向生命科学领域的人工智能基础设施、数据平台、核心算法引擎,支撑生命科学前沿研究任务。同时通过打造旗舰公开数据集,组织算法挑战竞赛,构建AI+生命科学的众智平台,培养跨界人才,构建产业生态。
AlphaFold2是AI+生命科学的一个典型成功案例。它的成功因素来自于两方面,首先,是任务的特殊性,蛋白质结构预测就可以看作从序列到三维结构的一个一一映射问题,因此它是一个welldefine的AI问题。这就是破壁计划的目标,要找到生命科学中意义重大,但同时又能抽象为适合AI的研究任务。第二,是模型的优越性。一方面,长时间的生命科学领域的研究积累了大规模的蛋白质结构数据,而AlphaFold2的整个模型架构则充分利用了数据驱动的端到端深度学习模型,大数据与深度模型的结合恰恰是第四范式的典型特点。因此,AlphaFold2带给我们的启示就是在AI+生命科学的研究中,要注重破壁和第四范式的重要性。
显然,AlphaFold2仅仅是一个开始,它的成功正在开启一个新的模式。蛋白质结构的精准预测为生命科学家提供了高效的计算工具,也为基于AI的重大生命科学发现提供了可能。未来,抗体、抗原的表位预测,肿瘤的精准疗法,TCR/个性化疫苗的设计与优化等方向将成为重要的研究热点,并在AI驱动的新计算模式下取得突破性进展,AI+大分子制药的黄金时代将正式到来。
其中,还会产生很多新的科学挑战,也预示着将产生新的计算范式,例如,干湿融合的闭环式计算框架。一方面人工智能模型通过高通量、多轮湿实验的闭环验证和数据补充将变得更为智能。另一方面,通过主动学习或强化学习的方式,AI将主动规划湿实验的自动化进行,形成干湿闭环验证、迭代加速生命科学发现与产业应用。我们预见到,通过干湿闭环打通,生命科学研究与生物医药产业将迎来新的研究范式与产业模式。
AIR目前在基因数据的表达和预测方面已经取得了一些初步进展。最近,由我们清华大学智能产业研究院(AIR)的兰艳艳教授带领GeneBert团队设计了一个新颖的基因预训练模型,通过构建序列与转录因子之间的二维矩阵,实现了一个多模态的基因预训练模型,获取了基因数据的有效表示,尤其是挖掘了非编码区的数据价值,在下游的启动子、转录子结合位点的预测,先天性巨结肠疾病的基因筛选任务上都大幅提高了性能。我们相信,类似预训练这样的前沿AI技术在基因数据上的持续深入应用,将进一步挖掘基因数据的价值,帮助我们破解人类的密码,在癌症的精准治疗等重要问题上发挥作用。
总结来看,我们认为,生物世界正处于数字化、自动化和智能科学计算的新变革中,用计算的方法,即人工智能和数据驱动的第四研究范式来辅助人们探索并解决生命健康的问题成为一个重要的研究方向。未来,需要学术界和产业界共同推动生命科学、生物医药、基因工程、个人健康各领域从孤立、开环向协同、闭环发展,实现更快速、更精准、更安全、更经济、更普惠的生命科学与生物医药创新,这代表着下个十年巨大的科学发展与产业创新的新机会。
我们热切呼吁更多的人来关注、支持或投身于这个新兴交叉学科的发展。
撰文排版/冼晓晴
校对责编/黄妍
阅读原文:
张亚勤:人工智能赋能生命科学——机遇与挑战