解析生物医学大数据,人工智能是最适用手段
◎本报记者张佳星
当前最核心的生物医学大数据问题是解决各种可测量的数据,包括遗传密码与表观表型之间的关系问题。我们知道分子水平的基因组学、蛋白质组学研究产生的数据量不计其数,近年来发展起来的表型组学研究也在不断积累数据量,我们会逐渐拥有大量的表观数据。那么这两大数据如何偶联?如此规模巨大、系统复杂的分析只能由人工智能来完成。
近段时间,人工智能大模型展现了强大的自然语义处理能力,再次掀起了人工智能的研究热潮。从图灵测试开始,机器人能否与人对话就被用作判断机器是否具有高级别认知智能的依据。大模型的建立,让人工智能距离通过图灵测试更近一步。
那么,当前的人工智能还有哪些潜力?在生物医学领域应如何更进一步发展适用的人工智能?科技日报记者日前对中国科学院院士、中国科学院生物物理研究所研究员陈润生进行了采访。
生物信息数据量大、维度广
记者:距离人类遗传密码被破译已经过了20多年,但似乎仍有很多健康问题难以解决,这是为什么?
陈润生:过去我们认为生物网络是“单色”的,或者说是单因素作用的。因为当时我们认为具有生命功能的分子只有蛋白质,遗传物质经过转录、翻译的过程转化为蛋白质,进而执行生命活动中的各项功能。
基于这样的认知,人类遗传密码的破译被理解为解读“生命天书”。将人类全部30亿个碱基序列全部测序完成,就能读懂这部“生命天书”,提纲挈领地搞清生命活动的运转体系,从而揭开所有健康的秘密,获得解决健康问题的手段。
但现在我们发现,生物网络不是“单色”的,生命活动的调控、抑制、互作中,还有核酸的参与。比如有些核酸序列也会发挥之前被认为属于蛋白质的功能,调控细胞活动。在承载人类遗传信息的30亿个碱基对中,还有很大一部分虽然我们读出了序列,但并不知道功能,它们在生命活动中究竟起到什么作用也没有被研究清楚。大量这样的区域被称为遗传物质的“沙漠区”……因此,当前对人类遗传密码的破译进程只走了解决健康问题过程中的一小步。
记者:既然生命活动这么复杂,是否需要更多的生物信息数据才有希望破解健康难题?目前需要充分利用的有哪些维度的生物信息学数据?
陈润生:这30年来,人类遗传密码的破译带动着整个生物医学领域内广泛的数据都成为了大数据。
生物信息学最早的研究对象是遗传密码,研究任务是对遗传密码进行收集、整理、存储、发布、分析和解释。现在数据更广泛了,生物信息学的研究从20世纪八九十年代创立时的无信息可用,到现在数据呈现海量、多维、异质化特征。比如通过电子病历大数据挖掘,我们可以得到很多重要信息。中山大学一些研究人员通过电子病历分析找到的科学结论被发表在了国际著名期刊上。又比如可穿戴设备带来的生理生化指标,这类信息具备实时、环境情绪相关等特性。这些数据还包括医院中的影像学数据、临床病人在治疗用药后的病情变化数据、环境数据、微生物数据、地质数据、化学农药残留数据等。所有这些跟健康相关的数据集纳起来,构成了非常复杂的健康大数据类型。
可大幅提高生物信息处理能力
记者:如何解析复杂的健康大数据?
陈润生:健康大数据很复杂,举例来说,电子病历写的是字,处理这样的信息需要自然语言处理模块,生理生化指标如脑电、心电等信息需要处理的是波形图,而影像学要处理图像,组学要处理符号。对这些性质各异的生物信息进行全面提取处理,就如同秦始皇统一六国不仅要统一文字、语言,还要统一货币、度量衡,需要将不同的信息融通,再做解析和决策。
当前最核心的生物医学大数据问题是解决各种可测量的数据,包括遗传密码与表观表型之间的关系问题。我们知道分子水平的基因组学、蛋白质组学研究产生的数据量不计其数,近年来发展起来的表型组学研究也在不断积累数据量,我们会逐渐拥有大量的表观数据。那么这两大数据如何偶联?如此规模巨大、系统复杂的分析只能由人工智能来完成。
目前来看,要解析生物医学大数据,人工智能技术是最适用的手段。
记者:从最初的人工智能到阿尔法狗再到大模型,人工智能发生了哪些变化?当前的大模型在处理生物医学信息方面有哪些优势?
陈润生:20世纪80年代,由于受算力和算法的限制,我们能设计运行的人工智能神经网络非常简单,只有几层。
现在的人工智能神经网络,比如阿尔法狗、阿尔法折叠等,它的网络模型架构达到200—300层。当今的计算能力能够使它们完成更加复杂的任务。
人工智能大模型让人工智能更进一步。我认为大模型的出现表明人工智能有了多方面、更深刻的进展。第一方面是对自然语言的处理能力发生了根本性的变化。处理人类的自然语言对于计算机来说很困难,突破这个能力后,人工智能可以拥有全局性的知识作为计算的基础。
第二方面进展是具备了预学习能力。人类之所以能产生智慧,是因为从出生以来一直在不断积累学习。现在在大模型中,计算机已经可以预学习了,能够在大量的知识被预先获得的前提下,再将具体科学问题交给计算机,而不是针对某一个特定问题进行学习。
第三方面进展是可积极促进模态融合。模态融合可以这样理解,比如人工智能不仅能完成基础医学里的结构预测工作,还能完成临床医学中的识图判读工作,更重要的是可以把这两个能力融合起来,即人工智能在每个领域都具备专家的知识,又能够融会贯通、举一反三。
基于以上三点,我认为发展人工智能作为未来医学大数据挖掘的工具值得重视。
以人工智能解析生物医学大数据
记者:很多人在健康出现问题之后的第一反应是“为什么会这样”,以后人工智能可以解答这样的问题吗?
陈润生:想要回答“为什么会这样”这个问题涉及到人工智能界的两个提法:弱人工智能和强人工智能。弱人工智能就像阿尔法狗,能处理特定任务。而强人工智能被认为是有可能制造出来的、真正能推理和解决问题的智能机器。
所以你的问题其实是在问,强人工智能有可能出现吗?过去我认为是不可能的,但现在看来,我觉得随着大模型的出现,一些问题正在破冰,强人工智能有了出现的苗头和希望。当然,现阶段人工智能的发展与真正的强人工智能还差得很远。
当前我们正在进行一些与医学相关的人工智能研究。比如扩大健康问题相关的参数,抽提面部、表情等特征,也融合基因组、转录组、蛋白组、宏基因组、表观组等全部维度的特征,甚至加入了中医内容,通过多模态融合建造医学多模态数据智能整合计算平台,我们称之为“灵枢”,并将其用于医学健康问题的实践。
记者:网上有人调侃,能写论文的人工智能却无法解释清楚“驴肉火烧”“鱼香肉丝”,而生物医学领域对于人工智能的要求更高,您认为如何让人工智能具有更严谨的运行能力?
陈润生:如何才能让人工智能解释清楚“驴肉火烧”“鱼香肉丝”等人类世界的问题,其实是在问如何才能让人工智能达到强人工智能的水平。
人工智能的智能水平主要由三个因素决定:数据、模型和算力。数据掌握在用户手中,模型需要不断研发讨论精进,算力是由计算机的能力决定的。
从这三个决定因素入手,我们能够发现,在数据方面,要解决相应的科学问题,人工智能掌握信息量高、信噪比低的足够信息就可以了。在算力方面,要依靠计算机科学家不断从硬件等解决方案入手提高运算能力。
只有模型方面是值得研讨的,现在的模型理论够不够达到强人工智能的要求,如何让模型更强?
目前有几个途径可以让模型更强,即增加知识量、增加网络节点数、增加网络复杂度。当前国际上几个大模型的处理数据量已达到万亿参数级别,在此基础上,我认为需要进一步增加的是网络复杂度。
我们可以从生理学家的脑生理切片模型中得到启发。新生儿的脑神经网络很简单,复杂度不够,学不了多少东西。成长让人的脑神经网络逐步复杂,进而承载更多内容。因此,我们可以从研究脑发育中获得启发,进而形成一个更完善的基础理论框架,获得适用的模型,使人工智能走向强人工智能。
欧盟《人工智能法案》再迈一步,对企业和其他国家有哪些影响
当地时间2023年6月14日,法国斯特拉斯堡,欧洲议会全体会议上,欧洲议会议员参加关于人工智能法案的投票会议。视觉中国图
欧盟的人工智能立法进入最终阶段,或将影响其他国家的规则制定。
当地时间6月14日,欧洲议会(EuropeanParliament)以499票赞成、28票反对和93票弃权的压倒性结果通过了《人工智能法案》(AIAct)草案,若通过立法,或成为全球首个关于人工智能的法案。
据彭博社报道,欧洲议会的投票是正式立法前的最后步骤之一,接下来将进入三方“谈判”阶段——欧洲议会、欧盟成员国(EUmemberstates)和欧盟委员会(EuropeanCommission)。欧盟委员会希望在今年年底前达成协议,新的法案将可能在2026年对相关公司产生影响。法案通过后,在极端情况下,违规公司可能被处以高达3000万欧元(合3300万美元)的罚款,或公司全球年收入的6%,也就是说对于谷歌和微软等大型科技公司而言,其罚款可能高达数十亿欧元。
禁止人脸识别,加强通用AI控制
该法案遵循“基于风险”(risk-basedapproach)的方法,将AI及其相关应用划分为四种等级,分别为被禁止(Prohibited)、高风险、有限风险以及低风险,并针对不同类型制定相应的监管规则。
值得注意的是,欧洲议会官网显示的最新草案中,实时远程生物识别技术从“高风险”级别调整为“被禁止”级别,这意味未来公司不能利用AI技术在欧盟国家的公共场合进行人脸识别。
来源:欧洲议会官网
此外,欧洲议会也对通用AI(generalpurposeAI)提出了新的透明度要求——基于这些模型的生成式AI(例如ChatGPT)必须对AI生成的内容进行标注,以帮助用户区别“深度伪造信息”;此外其还必须披露用于训练模型的数据,声明是否使用受版权保护的材料来训练其模型。
来源:欧洲议会官网
欧盟委员会于2021年首次提出“基于风险”的《人工智能法案》,其最初的想法是规范AI的使用,并为如何在“高风险”情况下使用该技术制定标准。不过,自ChatGPT引起新一轮技术热潮后,通用AI也逐渐引起欧盟警惕,并被纳入法案,连带着基础模型(foundationalmodels)的控制也随之加强,因为这些大型语言模型是ChatGPT等聊天机器人的底层支柱。
欧盟内部市场专员ThierryBreton在一份声明中表示,“我预计,关于生成式AI的相关条款将成为‘三方谈判’的关键讨论点之一。我们需要对AI生成的内容提出透明度要求,并针对‘深度造假内容’制定严格的规则。”
欧盟AI法案或影响其他立法者
对于《人工智能法案》,一些科技公司及其支持者认为,该法案可能会阻碍技术创新。根据《华尔街日报》的报道,他们认为政府的干预应侧重于特定的AI应用,而不是像欧盟那样过多限制AI的开发方式。
不过,也有技术人员及学术界对这一法案表示支持,认为该法案能够通过规范AI技术的开发,有效地减缓公司在推出新型AI工具方面的竞争。
对于生成式AI的开发者而言,这些法律将产生巨大的影响,但一些大型科技公司仍然表示愿意“拥抱”法案。据路透社的报道,微软和IBM对欧盟的最新举措表示欢迎,不过它们仍然期待对方能够对内容进行进一步的完善。
微软发言人表示,“我们认为AI需要立法监管、国际层面的协调努力,同时也需要开发公司采取自愿行动。”
在AI领域的监管方面,欧盟一直走在世界前列。《华尔街日报》表示,欧盟试图将自己定位为,在AI领域设置“护栏”的领跑者。《华盛顿邮报》同样认为,此次投票将巩固欧盟在科技监管方面的全球领导地位,因为其他国家政府(包括美国国会)才刚开始应对人工智能所带来的威胁,尤其美国对于科技公司的监管一直停滞不前。如果该法案最终被采纳,其可能会影响全球的政策制定者。
“(这一法案)是可以强制执行的法规,(违反规定的)公司将被追究责任,这一点非常重要。”爱尔兰公民自由委员会的高级研究员KrisShrisak说道,因为美国、新加坡等其他地方仅仅是提供“指导和建议”,他认为“其他国家可能会去适应和复制”欧盟的法案。
根据《时代》周刊,欧盟市场规模庞大,拥有约4.5亿消费者。有专家认为,欧盟举措将促使开发公司更愿意遵守规定,而不是为不同地区开发不同的产品。欧盟立法者DragosTudorache同样认为,欧盟的法案“将为全球AI的发展和治理定下基调”。
“今天我们创造了历史,”负责人工智能法案的欧洲议会成员BrandoBenifei在新闻发布会上表示,他认为欧洲立法者为全球各地就构建“负责任的人工智能”进行沟通,“铺平了道路”。
人工智能写作平台有哪些在线分享6个方法
人工智能写作平台有哪些?使用人工智能写作平台主要是为了提高效率、降低成本和优化内容质量。使用人工智能写作平台可以为企业或个人提供高效、低成本、高质量的文本生成服务,帮助他们快速扩展内容创作领域和满足不同的需求。以下是几个常见的人工智能写作平台,感兴趣的小伙伴和我一起来看看吧。
1.FUNAI(手机端)
FUNAI是手机端的人工智能写作平台之一,可以用于生成文章、新闻报道、诗歌等多种文本形式。用户可以通过API方式使用该模型。操作简单又好用,我们只需要选择其中的【AI学习-文章创作】功能就可以实现。
2.Copy.ai
Copy.ai是一个广告文案和营销文本生成平台。它使用了深度学习技术来帮助用户快速生成各种类型的营销文案,包括社交媒体广告、博客文章、电子邮件等。
3.Wordsmith
Wordsmith是一款自动化写作软件,主要用于生成报告、数据分析和产品描述等内容。它可以根据预定义的规则和参数,自动生成准确而有用的文本内容。
4.Articoolo
Articoolo是一款在线文章生成工具,它使用机器学习算法和自然语言处理技术,可以自动生成符合特定主题或关键词的文章。
5.QuillBot
QuillBot是一个在线的自然语言处理工具,它可以将输入的文本进行重构和改写,生成更通顺、流畅的语句和段落。
6.ContentBot
ContentBot是一个内容自动生成平台,可以快速生成符合特定领域或主题的文章、博客、评论、新闻报道等文本内容。
以上是一些常见的人工智能写作平台,它们都使用了先进的自然语言处理技术和深度学习算法,可以帮助用户快速生成高质量的文本内容。