人工智能的创新发展与社会影响认知人工智能的发展前景是什么意思啊

发表时间：2023-07-03 14:06:13

人工智能的创新发展与社会影响

党的十八大以来，习近平总书记把创新摆在国家发展全局的核心位置，高度重视人工智能发展，多次谈及人工智能的重要性，为人工智能如何赋能新时代指明了方向。2018世界人工智能大会9月17日在上海开幕，习总书记致信祝贺并强调指出人工智能发展应用将有力提高经济社会发展智能化水平，有效增强公共服务和城市管理能力。深入学习领会习总书记关于人工智能的一系列重要论述，务实推进我国《新一代人工智能发展规划》，有效规避人工智能“鸿沟”，着力收获人工智能“红利”，对建设世界科技强国、实现“两个一百年”的奋斗目标具有重大战略意义。

一、引言

1956年人工智能（ArtificialIntelligence，简称AI）的概念被正式提出，标志着人工智能学科的诞生，其发展目标是赋予机器类人的感知、学习、思考、决策和行动等能力。经过60多年的发展，人工智能已取得突破性进展，在经济社会各领域开始得到广泛应用并形成引领新一轮产业变革之势，推动人类社会进入智能化时代。美国、日本、德国、英国、法国、俄罗斯等国家都制定了发展人工智能的国家战略，我国也于2017年发布了《新一代人工智能发展规划》，发改委、工信部、科技部、教育部等国家部委和北京、上海、广东、江苏等地政府也相继出台推动人工智能发展的相关政策文件，社会各界对人工智能的重大战略意义已形成广泛共识。

跟其他高科技一样，人工智能也是一把双刃剑。如何认识人工智能的社会影响，也有“天使派”和“魔鬼派”之分。“天使派”认为，人工智能领域的科技创新和成果应用取得重大突破，有望引领第四次工业革命，对社会、经济、军事等领域将产生变革性影响，在制造、交通、教育、医疗、服务等方面可以造福人类；“魔鬼派”认为，人工智能是人类的重大威胁，比核武器还危险，有可能引发第三次世界大战。2018年2月，牛津大学、剑桥大学和OpenAI公司等14家机构共同发布题为《人工智能的恶意使用：预测、预防和缓解》的报告，指出人工智能可能给人类社会带来数字安全、物理安全和政治安全等潜在威胁，并给出了一些建议来减少风险。

总体上看，已过花甲之年的人工智能当前的发展具有“四新”特征：以深度学习为代表的人工智能核心技术取得新突破、“智能+”模式的普适应用为经济社会发展注入新动能、人工智能成为世界各国竞相战略布局的新高地、人工智能的广泛应用给人类社会带来法律法规、道德伦理、社会治理等方面一系列的新挑战。因此人工智能这个机遇与挑战并存的新课题引起了全球范围内的广泛关注和高度重视。虽然人工智能未来的创新发展还存在不确定性，但是大家普遍认可人工智能的蓬勃兴起将带来新的社会文明，将推动产业变革，将深刻改变人们的生产生活方式，将是一场影响深远的科技革命。

为了客观认识人工智能的本质内涵和创新发展，本报告在简要介绍人工智能基本概念与发展历程的基础上，着重分析探讨人工智能的发展现状和未来趋势，试图揭示人工智能的真实面貌。很显然，在当下人工智能蓬勃发展的历史浪潮中如何选择中国路径特别值得我们深入思考和探讨。因此，本报告最后就我国人工智能发展态势、存在问题和对策建议也进行了阐述。

二、人工智能的发展历程与启示

1956年夏，麦卡锡（JohnMcCarthy）、明斯基（MarvinMinsky）、罗切斯特（NathanielRochester）和香农（ClaudeShannon）等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”，首次提出“人工智能”这一概念，标志着人工智能学科的诞生。人工智能的目标是模拟、延伸和扩展人类智能，探寻智能本质，发展类人智能机器。人工智能充满未知的探索道路曲折起伏，如何描述1956年以来60余年的人工智能发展历程，学术界可谓仁者见仁、智者见智。我们将人工智能60余年的发展历程划分为以下6个阶段：

一是起步发展期：1956年-20世纪60年代初。人工智能概念在1956年首次被提出后，相继取得了一批令人瞩目的研究成果，如机器定理证明、跳棋程序、LISP表处理语言等，掀起了人工智能发展的第一个高潮。

二是反思发展期：60年代-70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望，人们开始尝试更具挑战性的任务，并提出了一些不切实际的研发目标。然而，接二连三的失败和预期目标的落空（例如无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等），使人工智能的发展走入了低谷。

三是应用发展期：70年代初-80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题，实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功，推动人工智能走入了应用发展的新高潮。

四是低迷发展期：80年代中-90年代中。随着人工智能的应用规模不断扩大，专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。

五是稳步发展期：90年代中-2010年。由于网络技术特别是互联网技术的发展，信息与数据的汇聚不断加速，互联网应用的不断普及加速了人工智能的创新研究，促使人工智能技术进一步走向实用化。1997年IBM深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫，2008年IBM提出“智慧地球”的概念，这些都是这一时期的标志性事件。

六是蓬勃发展期：2011年-至今。随着大数据、云计算、互联网、物联网等信息技术的发展，泛在感知数据和图形处理器（GraphicsProcessingUnit，简称GPU）等计算平台推动以深度神经网络为代表的人工智能技术飞速发展，大幅跨越科学与应用之间的“技术鸿沟”，图像分类、语音识别、知识问答、人机对弈、无人驾驶等具有广阔应用前景的人工智能技术突破了从“不能用、不好用”到“可以用”的技术瓶颈，人工智能发展进入爆发式增长的新高潮。

通过总结人工智能发展历程中的经验和教训，我们可以得到以下启示：

（一）尊重学科发展规律是推动学科健康发展的前提。科学技术的发展有其自身的规律，顺其者昌，违其者衰。人工智能学科发展需要基础理论、数据资源、计算平台、应用场景的协同驱动，当条件不具备时很难实现重大突破。

（二）基础研究是学科可持续发展的基石。加拿大多伦多大学杰弗里·辛顿（GeoffreyHinton）教授坚持研究深度神经网络30年，奠定人工智能蓬勃发展的重要理论基础。谷歌的DeepMind团队长期深入研究神经科学启发的人工智能等基础问题，取得了阿尔法狗等一系列重大成果。

（三）应用需求是科技创新的不竭之源。引领学科发展的动力主要来自于科学和需求的双轮驱动。人工智能发展的驱动力除了知识与技术体系内在矛盾外，贴近应用、解决用户需求是创新的最大源泉与动力。比如专家系统人工智能实现了从理论研究走向实际应用的突破，近些年来安防监控、身份识别、无人驾驶、互联网和物联网大数据分析等实际应用需求带动了人工智能的技术突破。

（四）学科交叉是创新突破的“捷径”。人工智能研究涉及信息科学、脑科学、心理科学等，上世纪50年代人工智能的出现本身就是学科交叉的结果。特别是脑认知科学与人工智能的成功结合，带来了人工智能神经网络几十年的持久发展。智能本源、意识本质等一些基本科学问题正在孕育重大突破，对人工智能学科发展具有重要促进作用。

（五）宽容失败应是支持创新的题中应有之义。任何学科的发展都不可能一帆风顺，任何创新目标的实现都不会一蹴而就。人工智能60余载的发展生动地诠释了一门学科创新发展起伏曲折的历程。可以说没有过去发展历程中的“寒冬”就没有今天人工智能发展新的春天。

（六）实事求是设定发展目标是制定学科发展规划的基本原则。达到全方位类人水平的机器智能是人工智能学科宏伟的终极目标，但是需要根据科技和经济社会发展水平来设定合理的阶段性研究目标，否则会有挫败感从而影响学科发展，人工智能发展过程中的几次低谷皆因不切实际的发展目标所致。

三、人工智能的发展现状与影响

人工智能经过60多年的发展，理论、技术和应用都取得了重要突破，已成为推动新一轮科技和产业革命的驱动力，深刻影响世界经济、政治、军事和社会发展，日益得到各国政府、产业界和学术界的高度关注。从技术维度来看，人工智能技术突破集中在专用智能，但是通用智能发展水平仍处于起步阶段；从产业维度来看，人工智能创新创业如火如荼，技术和商业生态已见雏形；从社会维度来看，世界主要国家纷纷将人工智能上升为国家战略，人工智能社会影响日益凸显。

（一）专用人工智能取得重要突破。从可应用性看，人工智能大体可分为专用人工智能和通用人工智能。面向特定领域的人工智能技术（即专用人工智能）由于任务单一、需求明确、应用边界清晰、领域知识丰富、建模相对简单，因此形成了人工智能领域的单点突破，在局部智能水平的单项测试中可以超越人类智能。人工智能的近期进展主要集中在专用智能领域，统计学习是专用人工智能走向实用的理论基础。深度学习、强化学习、对抗学习等统计机器学习理论在计算机视觉、语音识别、自然语言理解、人机博弈等方面取得成功应用。例如，阿尔法狗在围棋比赛中战胜人类冠军，人工智能程序在大规模图像识别和人脸识别中达到了超越人类的水平，语音识别系统5.1%的错误率比肩专业速记员，人工智能系统诊断皮肤癌达到专业医生水平，等等。

（二）通用人工智能尚处于起步阶段。人的大脑是一个通用的智能系统，能举一反三、融会贯通，可处理视觉、听觉、判断、推理、学习、思考、规划、设计等各类问题，可谓“一脑万用”。真正意义上完备的人工智能系统应该是一个通用的智能系统。虽然包括图像识别、语音识别、自动驾驶等在内的专用人工智能领域已取得突破性进展，但是通用智能系统的研究与应用仍然是任重而道远，人工智能总体发展水平仍处于起步阶段。美国国防高级研究计划局（DefenseAdvancedResearchProjectsAgency，简称DARPA）把人工智能发展分为三个阶段：规则智能、统计智能和自主智能，认为当前国际主流人工智能水平仍然处于第二阶段，核心技术依赖于深度学习、强化学习、对抗学习等统计机器学习，AI系统在信息感知（Perceiving）、机器学习（Learning）等智能水平维度进步显著，但是在概念抽象（Abstracting）和推理决策（Reasoning）等方面能力还很薄弱。总体上看，目前的人工智能系统可谓有智能没智慧、有智商没情商、会计算不会“算计”、有专才无通才。因此，人工智能依旧存在明显的局限性，依然还有很多“不能”，与人类智慧还相差甚远。

（三）人工智能创新创业如火如荼。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义，纷纷调整发展战略。比如，在其2017年的年度开发者大会上，谷歌明确提出发展战略从“MobileFirst”（移动优先）转向“AIFirst”（AI优先）；微软2017财年年报首次将人工智能作为公司发展愿景。人工智能领域处于创新创业的前沿，麦肯锡报告2016年全球人工智能研发投入超300亿美元并处于高速增长，全球知名风投调研机构CBInsights报告显示2017年全球新成立人工智能创业公司1100家，人工智能领域共获得投资152亿美元，同比增长141%。

（四）创新生态布局成为人工智能产业发展的战略高地。信息技术（IT）和产业的发展史就是新老IT巨头抢滩布局IT创新生态的更替史。例如，传统信息产业IT（InformationTechnology）代表企业有微软、英特尔、IBM、甲骨文等，互联网和移动互联网IT（InternetTechnology）代表企业有谷歌、苹果、脸书、亚马逊、阿里巴巴、腾讯、百度等，目前智能科技IT（IntelligentTechnology）的产业格局还没有形成垄断，因此全球科技产业巨头都在积极推动AI技术生态的研发布局，全力抢占人工智能相关产业的制高点。人工智能创新生态包括纵向的数据平台、开源算法、计算芯片、基础软件、图形处理GPU服务器等技术生态系统和横向的智能制造、智能医疗、智能安防、智能零售、智能家居等商业和应用生态系统。在技术生态方面，人工智能算法、数据、图形处理器（GraphicsProcessingUnit，简称GPU）/张量处理器（TensorProcessingUnit，简称TPU）/神经网络处理器（NeuralnetworkProcessingUnit，NPU）计算、运行/编译/管理等基础软件已有大量开源资源，例如谷歌的TensorFlow第二代人工智能学习系统、脸书的PyTorch深度学习框架、微软的DMTK分布式学习工具包、IBM的SystemML开源机器学习系统等；此外谷歌、IBM、英伟达、英特尔、苹果、华为、中国科学院等积极布局人工智能领域的计算芯片。在人工智能商业和应用生态布局方面，“智能+X”成为创新范式，例如“智能+制造”、“智能+医疗”、“智能+安防”等，人工智能技术向创新性的消费场景和不同行业快速渗透融合并重塑整个社会发展，这是人工智能作为第四次技术革命关键驱动力的最主要表现方式。人工智能商业生态竞争进入白热化，例如智能驾驶汽车领域的参与者既有通用、福特、奔驰、丰田等传统龙头车企，又有互联网造车者如谷歌、特斯拉、优步、苹果、百度等新贵。

（五）人工智能上升为世界主要国家的重大发展战略。人工智能正在成为新一轮产业变革的引擎，必将深刻影响国际产业竞争格局和一个国家的国际竞争力。世界主要发达国家纷纷把发展人工智能作为提升国际竞争力、维护国家安全的重大战略，加紧积极谋划政策，围绕核心技术、顶尖人才、标准规范等强化部署，力图在新一轮国际科技竞争中掌握主导权。无论是德国的“工业4.0”、美国的“工业互联网”、日本的“超智能社会”、还是我国的“中国制造2025”等重大国家战略，人工智能都是其中的核心关键技术。2017年7月，国务院发布了《新一代人工智能发展规划》，开启了我国人工智能快速创新发展的新征程。

（六）人工智能的社会影响日益凸显。人工智能的社会影响是多元的，既有拉动经济、服务民生、造福社会的正面效应，又可能出现安全失控、法律失准、道德失范、伦理失常、隐私失密等社会问题，以及利用人工智能热点进行投机炒作从而存在泡沫风险。首先，人工智能作为新一轮科技革命和产业变革的核心力量，促进社会生产力的整体跃升，推动传统产业升级换代，驱动“无人经济”快速发展，在智能交通、智能家居、智能医疗等民生领域发展积极正面影响。与此同时，我们也要看到人工智能引发的法律、伦理等问题日益凸显，对当下的社会秩序及公共管理体制带来了前所未有的新挑战。例如，2016年欧盟委员会法律事务委员会提交一项将最先进的自动化机器人身份定位为“电子人（electronicpersons）”的动议，2017年沙特阿拉伯授予机器人“索菲亚”公民身份，这些显然冲击了传统的民事主体制度。那么，是否应该赋予人工智能系统法律主体资格？另外在人工智能新时代，个人信息和隐私保护、人工智能创作内容的知识产权、人工智能歧视和偏见、无人驾驶系统的交通法规、脑机接口和人机共生的科技伦理等问题都需要我们从法律法规、道德伦理、社会管理等多个角度提供解决方案。

由于人工智能与人类智能密切关联且应用前景广阔、专业性很强，容易造成人们的误解，也带来了不少炒作。例如，有些人错误地认为人工智能就是机器学习（深度学习），人工智能与人类智能是零和博弈，人工智能已经达到5岁小孩的水平，人工智能系统的智能水平即将全面超越人类水平，30年内机器人将统治世界，人类将成为人工智能的奴隶，等等。这些错误认识会给人工智能的发展带来不利影响。还有不少人对人工智能预期过高，以为通用智能很快就能实现，只要给机器人发指令就可以干任何事。另外，有意炒作并通过包装人工智能概念来谋取不当利益的现象时有发生。因此，我们有义务向社会大众普及人工智能知识，引导政府、企业和广大民众科学客观地认识和了解人工智能。

四、人工智能的发展趋势与展望

人工智能经过六十多年的发展突破了算法、算力和算料（数据）等“三算”方面的制约因素，拓展了互联网、物联网等广阔应用场景，开始进入蓬勃发展的黄金时期。从技术维度看，当前人工智能处于从“不能用”到“可以用”的技术拐点，但是距离“很好用”还有数据、能耗、泛化、可解释性、可靠性、安全性等诸多瓶颈，创新发展空间巨大，从专用到通用智能，从机器智能到人机智能融合，从“人工+智能”到自主智能，后深度学习的新理论体系正在酝酿；从产业和社会发展维度看，人工智能通过对经济和社会各领域渗透融合实现生产力和生产关系的变革，带动人类社会迈向新的文明，人类命运共同体将形成保障人工智能技术安全、可控、可靠发展的理性机制。总体而言，人工智能的春天刚刚开始，创新空间巨大，应用前景广阔。

（一）从专用智能到通用智能。如何实现从狭义或专用人工智能（也称弱人工智能，具备单一领域智能）向通用人工智能（也称强人工智能，具备多领域智能）的跨越式发展，既是下一代人工智能发展的必然趋势，也是国际研究与应用领域的挑战问题。2016年10月美国国家科学技术委员会发布了《国家人工智能研究与发展战略计划》，提出在美国的人工智能中长期发展策略中要着重研究通用人工智能。DeepMind创始人戴密斯·哈萨比斯（DemisHassabis）提出朝着“创造解决世界上一切问题的通用人工智能”这一目标前进。微软在2017年7月成立了通用人工智能实验室，100多位感知、学习、推理、自然语言理解等方面的科学家参与其中。

（二）从人工智能到人机混合智能。人工智能的一个重要研究方向就是借鉴脑科学和认知科学的研究成果，研究从智能产生机理和本质出发的新型智能计算模型与方法，实现具有脑神经信息处理机制和类人智能行为与智能水平的智能系统。在美国、欧盟、日本等国家和地区纷纷启动的脑计划中，类脑智能已成为核心目标之一。英国工程与自然科学研究理事会EPSRC发布并启动了类脑智能研究计划。人机混合智能旨在将人的作用或认知模型引入到人工智能系统中，提升人工智能系统的性能，使人工智能成为人类智能的自然延伸和拓展，通过人机协同更加高效地解决复杂问题。人机混合智能得到了我国新一代人工智能规划、美国脑计划、脸书（脑机语音文本界面）、特斯拉汽车创始人埃隆·马斯克（人脑芯片嵌入和脑机接口）等的高度关注。

（三）从“人工+智能”到自主智能系统。当前人工智能的研究集中在深度学习，但是深度学习的局限是需要大量人工干预：人工设计深度神经网络模型、人工设定应用场景、人工采集和标注大量训练数据（非常费时费力）、用户需要人工适配智能系统等。因此已有科研人员开始关注减少人工干预的自主智能方法，提高机器智能对环境的自主学习能力。例如阿法元从零开始，通过自我对弈强化学习实现围棋、国际象棋、日本将棋的“通用棋类AI”。在人工智能系统的自动化设计方面，2017年谷歌提出的自动化学习系统（AutoML）试图通过自动创建机器学习系统降低AI人员成本。

（四）人工智能将加速与其他学科领域交叉渗透。人工智能本身是一门综合性的前沿学科和高度交叉的复合型学科，研究范畴广泛而又异常复杂，其发展需要与计算机科学、数学、认知科学、神经科学和社会科学等学科深度融合。随着超分辨率光学成像、光遗传学调控、透明脑、体细胞克隆等技术的突破，脑与认知科学的发展开启了新时代，能够大规模、更精细解析智力的神经环路基础和机制，人工智能将进入生物启发的智能阶段，依赖于生物学、脑科学、生命科学和心理学等学科的发现，将机理变为可计算的模型，同时人工智能也会促进脑科学、认知科学、生命科学甚至化学、物理、材料等传统科学的发展。例如，2018年美国麻省理工学院启动的“智能探究计划”（MITIntelligenceQuest）就联合了五大学院进行协同攻关。

（五）人工智能产业将蓬勃发展。随着人工智能技术的进一步成熟以及政府和产业界投入的日益增长，人工智能应用的云端化将不断加速，全球人工智能产业规模在未来十年将进入高速增长期。例如，2016年9月，咨询公司埃森哲发布报告指出，人工智能技术的应用将为经济发展注入新动力，在现有基础上能够提高劳动生产率40%；美、日、英、德、法等12个发达国家（现占全球经济总量的一半）到2035年，年经济增长率平均可以翻一番。2018年麦肯锡的研究报告表明到2030年人工智能新增经济规模将达到13万亿美元。

（六）人工智能将推动人类进入普惠型智能社会。“人工智能+X”的创新模式将随着技术和产业的发展日趋成熟，对生产力和产业结构产生革命性影响，并推动人类进入普惠型智能社会。2017年国际数据公司IDC在《信息流引领人工智能新时代》白皮书中指出未来五年人工智能提升各行业运转效率，其中教育业提升82%，零售业71%，制造业64%，金融业58%。我国经济社会转型升级对人工智能有重大需求，在消费场景和行业应用的需求牵引下，需要打破人工智能的感知瓶颈、交互瓶颈和决策瓶颈，促进人工智能技术与社会各行各业的融合提升，建设若干标杆性的应用场景创新，实现低成本、高效益、广范围的普惠型智能社会。

（七）人工智能领域的国际竞争将日趋激烈。“未来谁率先掌握人工智能，谁就能称霸世界”。2018年4月，欧盟委员会计划2018-2020年在人工智能领域投资240亿美元；法国总统在2018年5月宣布《法国人工智能战略》，目的是迎接人工智能发展的新时代，使法国成为人工智能强国；2018年6月，日本《未来投资战略》重点推动物联网建设和人工智能的应用。世界军事强国已逐步形成以加速发展智能化武器装备为核心的竞争态势，例如美国特朗普政府发布的首份《国防战略》报告即提出谋求通过人工智能等技术创新保持军事优势，确保美国打赢未来战争；俄罗斯2017年提出军工拥抱“智能化”，让导弹和无人机这样的“传统”兵器威力倍增。

（八）人工智能的社会学将提上议程。水能载舟，亦能覆舟。任何高科技也都是一把双刃剑。随着人工智能的深入发展和应用的不断普及，其社会影响日益明显。人工智能应用得当、把握有度、管理规范，就能有效控制负面风险。为了确保人工智能的健康可持续发展并确保人工智能的发展成果造福于民，需要从社会学的角度系统全面地研究人工智能对人类社会的影响，深入分析人工智能对未来经济社会发展的可能影响，制定完善的人工智能法律法规，规避可能风险，确保人工智能的正面效应。2017年9月，联合国犯罪和司法研究所(UNICRI)决定在海牙成立第一个联合国人工智能和机器人中心，规范人工智能的发展。2018年4月，欧洲25个国家签署了《人工智能合作宣言》，从国家战略合作层面来推动人工智能发展，确保欧洲人工智能研发的竞争力，共同面对人工智能在社会、经济、伦理及法律等方面的机遇和挑战。

五、我国人工智能的发展态势与思考

我国当前人工智能发展的总体态势良好。中国信通院联合高德纳咨询公司（Gartner）于2018年9月发布的《2018世界人工智能产业发展蓝皮书》报告统计，我国（不含港澳台地区）人工智能企业总数位列全球第二（1040家），仅次于美国（2039家）。在人工智能总体水平和应用方面，我国也处于国际前列，发展潜力巨大，有望率先突破成为全球领跑者。但是我们也要清醒地看到，我国人工智能发展存在过热和泡沫化风险，特别在基础研究、技术体系、应用生态、创新人才、法律规范等方面仍然存在不少问题。总体而言，我国人工智能发展现状可以用“高度重视，态势喜人，差距不小，前景看好”来概括。

一是高度重视。党和国家高度重视并大力发展人工智能。党的十八大以来，习近平总书记把创新摆在国家发展全局的核心位置，高度重视人工智能发展，多次谈及人工智能的重要性，为人工智能如何赋能新时代指明方向。2016年7月习总书记明确指出，人工智能技术的发展将深刻改变人类社会生活，改变世界，应抓住机遇，在这一高技术领域抢占先机。在党的十九大报告中，习总书记强调“要推动互联网、大数据、人工智能和实体经济深度融合”。在2018年两院院士大会上，习总书记再次强调要“推进互联网、大数据、人工智能同实体经济深度融合，做大做强数字经济”。在2017年和2018年的《政府工作报告》中，李克强总理都提到了要加强新一代人工智能发展。2017年7月，国务院发布了《新一代人工智能发展规划》，将新一代人工智能放在国家战略层面进行部署，描绘了面向2030年的我国人工智能发展路线图，旨在构筑人工智能先发优势，把握新一轮科技革命战略主动，人工智能将成为今后一段时期的国家重大战略。发改委、工信部、科技部、教育部、中央网信办等国家部委和北京、上海、广东、江苏、浙江等地方政府都推出了发展人工智能的鼓励政策。

二是态势喜人。根据2017年爱思唯尔（Elsevier）文献数据库SCOPUS统计结果，我国在人工智能领域发表的论文数量已居世界第一。从2012年开始，我国在人工智能领域新增专利数量已经开始超越美国。据清华大学发布的《中国人工智能发展报告2018》统计，我国已成全球人工智能投融资规模最大国家，我国人工智能企业在人脸识别、语音识别、安防监控、智能音箱、智能家居等人工智能应用领域处于国际前列。近两年，清华大学、北京大学、中国科学院大学、浙江大学、上海交通大学、南京大学等高校纷纷成立人工智能学院。2015年开始的中国人工智能大会（CCAI）已连续成功召开四届、规模不断扩大，人工智能领域的教育、科研与学术活动层出不穷。

三是差距不小。我国人工智能在基础研究、原创成果、顶尖人才、技术生态、基础平台、标准规范等方面距离世界领先水平还存在较大差距。英国牛津大学2018年的一项研究报告指出中国的人工智能发展能力大致为美国的一半水平。目前我国在人工智能前沿理论创新方面总体上尚处于“跟跑”地位，大部分创新偏重于技术应用，存在“头重脚轻”的不均衡现象。在Top700全球AI人才中，中国虽然名列第二，但入选人数远远低于占一半数量的美国。据领英《全球AI领域人才报告》统计，截至2017年一季度全球人工智能领域专业技术人才数量超过190万，其中美国超过85万，我国仅超过5万人，排名全球第7位。2018年市场研究顾问公司CompassIntelligence对全球100多家AI计算芯片企业进行了排名，我国没有一家企业进入前十。另外，我国人工智能开源社区和技术生态布局相对滞后，技术平台建设力度有待加强，国际影响力有待提高。我国参与制定人工智能国际标准的积极性和力度不够，国内标准制定和实施也较为滞后。我国制定完善人工智能相关法律法规的进程需要加快，对可能产生的社会影响还缺少深度分析。

四是前景看好。我国发展人工智能具有市场规模、应用场景、数据资源、人力资源、智能手机普及、资金投入、国家政策支持等多方面的综合优势，人工智能发展前景看好。全球顶尖管理咨询公司埃森哲于2017年发布的《人工智能：助力中国经济增长》报告显示，到2035年人工智能有望推动中国劳动生产率提高27%。我国发布的《新一代人工智能发展规划》提出到2030年，人工智能核心产业规模超过1万亿元，带动相关产业规模超过10万亿元。在我国未来的发展征程中，“智能红利”将有望弥补人口红利的不足。

人类社会已开始迈入智能化时代，人工智能引领社会发展是大势所趋，不可逆转。经历六十余年积累后，人工智能开始进入爆发式增长的红利期。伴随着人工智能自身的创新发展和向经济社会的全面渗透，这个红利期将持续相当长的时期。现在是我国加强人工智能布局、收获人工智能红利、引领智能时代的重大历史机遇期，如何在人工智能蓬勃发展的浪潮中选择好中国路径、抢抓中国机遇、展现中国智慧需要深入思考。

（一）树立理性务实的发展理念。围棋人机大战中阿尔法狗战胜李世石后，社会大众误以为人工智能已经无所不能，一些地方政府、社会企业、风险资金因此不切实际一窝蜂发展人工智能产业，一些别有用心的机构则有意炒作并通过包装人工智能概念来谋取不当利益。这种“一拥而上、一哄而散”的跟风行为不利于人工智能的健康可持续发展。任何事物的发展不可能一直处于高位，有高潮必有低谷，这是客观规律。根据高德纳咨询公司发布的技术发展曲线，当前智能机器人、认知专家顾问、机器学习、自动驾驶等人工智能热门技术与领域正处于期望膨胀期，但是通用人工智能及人工智能的整体发展仍处于初步阶段，人工智能还有很多“不能”，实现机器在任意现实环境的自主智能和通用智能仍然需要中长期理论和技术积累，并且人工智能对工业、交通、医疗等传统领域的渗透和融合是个长期过程，很难一蹴而就。因此发展人工智能不能以短期牟利为目的，要充分考虑到人工智能技术的局限性，充分认识到人工智能重塑传统产业的长期性和艰巨性，理性分析人工智能发展需求，理性设定人工智能发展目标，理性选择人工智能发展路径，并务实推进人工智能发展举措，只有这样才能确保人工智能健康可持续发展。

（二）加强基础扎实的原创研究。人工智能前沿基础理论是人工智能技术突破、行业革新、产业化推进的基石。在此发展的临界点，要想取得最终的话语权，必须在人工智能基础理论和前沿技术方面取得重大突破。根据2017年爱思唯尔文献数据库SCOPUS统计结果，尽管我国在人工智能领域发表的论文数量已经排名世界第一，但加权引文影响力则只排名34位。为了客观评价我国在人工智能基础研究方面的整体实力，我们搜索了SCI期刊、神经信息处理系统大会（ConferenceonNeuralInformationProcessingSystems，简称NIPS）等主流人工智能学术会议关于通用智能、深度学习、类脑智能、脑智融合、人机博弈等关键词的论文统计情况，可以清楚看到在人工智能前沿方向中国与美国相比基础实力存在巨大差距：在高质量论文数量方面（按中科院划定的SCI一区论文标准统计），美国是中国的5.34倍（1325:248）；在人才储备方面（SCI论文通讯作者），美国是中国的2.12倍（4804:2267）。

我国应对标国际最高水平，建设面向未来的人工智能基础科学研究中心，重点发展原创性、基础性、前瞻性、突破性的人工智能科学。应该鼓励科研人员瞄准人工智能学科前沿方向开展引领性原创科学研究，通过人工智能与脑认知、神经科学、心理学等学科的交叉融合，重点聚焦人工智能领域的重大基础性科学问题，形成具有国际影响力的人工智能原创理论体系，为构建我国自主可控的人工智能技术创新生态提供领先跨越的理论支撑。

（三）构建自主可控的创新生态。美国谷歌、IBM、微软、脸书等企业在AI芯片、服务器、操作系统、开源算法、云服务、无人驾驶等方面积极构建创新生态、抢占创新高地，已经在国际人工智能产业格局中占据先机。我国人工智能开源社区和技术创新生态布局相对滞后，技术平台建设力度有待加强，国际影响力有待提高。美国对中兴通讯发禁令一事充分说明自主可控“核高基”技术的重要性，我国应该吸取在核心电子器件、高端通用芯片及基础软件方面依赖进口的教训，避免重蹈覆辙，着力防范人工智能时代“空心化”风险，系统布局并重点发展人工智能领域的“新核高基”：“新”指新型开放创新生态，如军民融合、产学研融合等；“核”指核心关键技术与器件，如先进机器学习技术、鲁棒模式识别技术、低功耗智能计算芯片等；“高”指高端综合应用系统与平台，如机器学习软硬件平台、大型数据平台等；“基”指具有重大原创意义和技术带动性的基础理论与方法，如脑机接口、类脑智能等。

另外，我们需要重视人工智能技术标准的建设、产品性能与系统安全的测试。特别是我国在人工智能技术应用方面走在世界前列，在人工智能国际标准制定方面应当掌握话语权，并通过标准实施加速人工智能驱动经济社会转型升级的进程。

（四）建立协同高效的创新体系。我国经济社会转型升级对人工智能有重大需求，但是单一的创新主体很难实现政策、市场、技术、应用等方面的全面突破。目前我国学术界、产业界、行业部门在人工智能发展方面各自为政的倾向比较明显，数据资源开放共享不够，缺少对行业资源的有效整合。相比而言，美国已经形成了全社会、全场景、全生态协同互动的人工智能协同创新体系，军民融合和产学研结合都做得很好。我国应在体制机制方面进一步改革创新，建立“军、政、产、学、研、用”一体的人工智能协同创新体系。例如，国家进行顶层设计和战略规划，举全国优势力量设立军事智能的研发和应用平台，提供“人工智能+X”行业融合、打破行业壁垒和行政障碍的激励政策；科技龙头企业引领技术创新生态建设，突破人工智能的重大技术瓶颈；高校科研机构进行人才培养和原始创新，着力构建公共数据资源与技术平台，共同建设若干标杆性的应用创新场景，推动成熟人工智能技术在城市、医疗、金融、文化、农业、交通、能源、物流、制造、安全、服务、教育等领域的深度应用，建设低成本高效益广范围的普惠型智能社会。

（五）加快创新人才的教育培养。发展人工智能关键在人才，中高端人才短缺已经成为我国人工智能做大做强的主要瓶颈。另外，我国社会大众的人工智能科技素养也需要进一步提升，每一个人都需要去适应人工智能时代的科技浪潮。在加强人工智能领军人才培养引进的同时，要面向技术创新和产业发展多层次培养人工智能创新创业人才。《新一代人工智能发展规划》提出逐步开展全民智能教育项目，在中小学阶段设置人工智能课程。目前人工智能科普活动受到各地学校的欢迎，但是缺少通俗易懂的高质量人工智能科普教材、寓教于乐的实验设备和器材、开放共享的教学互动资源平台。国家相关部门应高度重视人工智能教育领域的基础性工作，增加投入，组织优势力量，加强高水平人工智能教育内容和资源平台建设，加快人工智能专业的教学师资培训，从教材、教具、教师等多个环节全面保障我国人工智能教育工作的开展。

（六）推动共担共享的全球治理。人工智能将重塑全球政治和经济格局，发达国家通过人工智能技术创新掌控了产业链上游资源，难以逾越的技术鸿沟和产业壁垒有可能将进一步拉大发达国家和发展中国家的生产力发展水平差距。美国、日本、德国等通过人工智能和机器人的技术突破和广泛应用弥补他们的人力成本劣势，希望制造业从新兴国家回流发达国家。目前看，我国是发展中国家阵容中唯一有望成为全球人工智能竞争中的领跑者，应采取不同于一些国家的“经济垄断主义、技术保护主义、贸易霸凌主义”路线，尽快布局构建开放共享、质优价廉、普惠全球的人工智能技术和应用平台，配合国家“一带一路”战略，向亚洲、非洲、南美等经济欠发达地区输出高水平、低成本的“中国智造”成果、提供人工智能时代的中国方案，为让人工智能时代的“智能红利”普惠人类命运共同体做出中国贡献！

（七）制定科学合理的法律法规。要想实实在在收获人工智能带来的红利，首先应保证其安全、可控、可靠发展。美国和欧洲等发达国家和地区十分重视人工智能领域的法律法规问题。美国白宫多次组织这方面的研讨会、咨询会；特斯拉等产业巨头牵头成立OpenAI等机构，旨在以有利于整个人类的方式促进和发展友好的人工智能；科研人员自发签署23条“阿西洛马人工智能原则”，意图在规范人工智能科研及应用等方面抢占先机。我国在人工智能领域的法律法规制定及风险管控方面相对滞后，这种滞后局面与我国现阶段人工智能发展的整体形势不相适应，并可能成为我国人工智能下一步创新发展的一大掣肘。因此，有必要大力加强人工智能领域的立法研究，制定相应的法律法规，建立健全公开透明的人工智能监管体系，构建人工智能创新发展的良好法规环境。

（八）加强和鼓励人工智能社会学研究。人工智能的社会影响将是深远的、全方位的。我们当未雨绸缪，从国家安全、社会治理、就业结构、伦理道德、隐私保护等多个维度系统深入研究人工智能可能的影响，制定合理可行的应对措施，确保人工智能的正面效应。应大力加强人工智能领域的科普工作，打造科技与伦理的高效对话机制和沟通平台，消除社会大众对人工智能的误解与恐慌，为人工智能的发展营造理性务实、积极健康的社会氛围。

六、结束语

人工智能经过60多年的发展，进入了创新突破的战略机遇期和产业应用的红利收获期，必将对生产力和产业结构以及国际格局产生革命性影响，并推动人类进入普惠型智能社会。但是，我们需要清醒看到通用人工智能及人工智能的整体发展仍处于初级阶段，人工智能不是万能，人工智能还有很多“不能”。我们应当采取理性务实的发展路径，扎实推进基础研究、技术生态、人才培养、法律规范等方面的工作，在开放中创新，在创新中发展，全速跑赢智能时代，着力建设人工智能科技强国！

（主讲人系中国科学院院士）

深入了解人工智能的发展现状及前景

人工智能的高速发展，不仅人工智能技术得到了完善，同时对于企业发展和人们生活工作都产生了一定的影响。为了能够更好地使用和了解人工智能，需要明白人工智能的发展现状以及前景。

深入了解人工智能的发展现状及前景

随着应用模式与商业模式的成形，人工智能产业发展将持续向好，中国人工智能企业超过2500家，已成为全球独角兽企业主要集中地之一。2021年，人工智能领域专业化和细分化程度将进一步提升，人工智能广泛应用的商业化落地阶段来临。

人工智能技术发展趋势第一、深度学习技术从单模态向多模态发展。

未来甚至可以对嗅觉、味觉、心理学等难以量化的信号进行融合，实现多个模态的联合分析，将推进深度学习从感知智能升级为认知智能，在更多场景、更多业务上辅助人类工作。一方面，多模态融合能够推动人机交互模式的升级，人机交互过程中可以从视觉、听觉、触觉等多方面体会机器的情感和表达的语义，通过图文、语音、动作等多方式互动，从整体上提高人机交互的自然度和精确度。另一方面，多模态融合技术，能够对人体的形态、表情和功能进行模拟仿真，打造出高度拟人化的虚拟形象，像真人一样与人沟通互动，不断提升交互体验。

深入了解人工智能的发展现状及前景

第二、边缘人工智能兴起。

边缘人工智能是人工智能领域引人注目的新领域之一，其目的是让用户运行人工智能流程而不必担心隐私或数据传输较慢带来的影响。边缘人工智能可以使人工智能技术得到更广泛的应用，使智能设备在无需接入云平台的情况下对输入做出快速反应。

边缘人工智能变得越来越重要，这是因为越来越多的设备需要在无法访问云平台的情况下使用人工智能技术。在自动化机器人或配备计算机视觉算法的智能汽车的应用中，数据传输的滞后可能是灾难性的。自动驾驶汽车在检测道路的人员或障碍时不能受到延迟的影响，由于快速响应时间是如此重要，必须采用边缘人工智能系统，允许实时分析和分类图像，而不依赖云计算连接。

第三、人工智能将呈现多平台多系统协同态势。

未来，人工智能产业将逐步向工业化迈进。标准化的产品、规模化的生产、流水线式的作业将是人工智能实现产业化的发展方向。企业在行业实践中的大量人机协同经验沉淀将通过开放平台扩散至更多行业。既拥有行业知识又拥有智能技术的企业通过提供标准化、模块化的产品和服务，为横向多行业全场景赋能。“开放、共享”将成为下一阶段人工智能产业发展的关键词。

深入了解人工智能的发展现状及前景

第四、人机协同将成为未来产业发展新模式。

在深度学习技术开启的人工智能第一发展阶段，单点技术的革新在市场中快速形成小型的技术应用闭环，技术为驱动的商业模式快速形成。计算机视觉、自然语言处理、语音处理等人工智能核心技术领域的突破开启了全球智能时代的新浪潮。以计算机视觉为例，门禁、考勤、人证核验、刷脸支付等场景问题在活体检测、ReID、动作识别等计算机视觉技术应用后能够高效地被解决。然而未来随着人工智能技术在场景中应用的不断深化，单一技术实现的技术闭环难以满足复杂场景下的智能化需求。人们对于智能算法的能力要求持续升高，核心技术能力的研发难度开始加大。

目前，人工智能已在金融、医疗、教育、零售、工业、交通、娱乐等诸多领域进行智能化的渗透。在智能变革的趋势下，传统行业纷纷开始探索如何与人工智能结合应用。随着传统产业的智能化实践逐步深入，行业中深层次的知识和经验尤为重要。简单的人工智能技术叠加将不再能满足用户的智能化预期。例如在金融领域，虚假申请、伪冒交易、内容违规给传统金融信贷造成巨大风险，传统的用户信用评估使得企业和个人信贷申请流程较为繁琐，金融机构的风险把控力不足。人机协同则通过融合专家能力与机器能力，将风控专家的知识技能模型化、结构化，再运用深度学习、自然语言处理、计算机视觉、知识图谱等技术手段自动学习贷款者的行为消费细节，实现用户画像的精准定位，从而提高风险识别能力，对全局的风险做到有效控制。

免费领取人工智能学习资料

人工智能的发展与未来

随着人工智能（artificialintelligent，AI）技术的不断发展，各种AI产品已经逐步进入了我们的生活。

现如今，各种AI产品已经逐步进入了我们的生活｜Pixabay

19世纪，作为人工智能和计算机学科的鼻祖，数学家查尔斯·巴贝奇（CharlesBabbage）与艾达·洛夫莱斯（AdaLovelace）尝试着用连杆、进位齿轮和打孔卡片制造人类最早的可编程数学计算机，来模拟人类的数理逻辑运算能力。

20世纪初期，随着西班牙神经科学家拉蒙-卡哈尔（RamónyCajal）使用高尔基染色法对大脑切片进行显微观察，人类终于清晰地意识到，我们几乎全部思维活动的基础，都是大脑中那些伸出细长神经纤维、彼此连接成一张巨大信息网络的特殊神经细胞——神经元。

至此，尽管智能的具体运作方式还依然是个深不见底的迷宫，但搭建这个迷宫的砖瓦本身，对于人类来说已经不再神秘。

智能，是一种特殊的物质构造形式。

就像文字既可以用徽墨写在宣纸上，也可以用凿子刻在石碑上，智能，也未必需要拘泥于载体。随着神经科学的启迪和数学上的进步，20世纪的计算机科学先驱们意识到，巴贝奇和艾达试图用机械去再现人类智能的思路，在原理上是完全可行的。因此，以艾伦·图灵（AlanTuring）为代表的新一代学者开始思考，是否可以用二战后新兴的电子计算机作为载体，构建出“人工智能”呢？

图灵在1950年的论文《计算机器与智能（ComputingMachineryandIntelligence）》中，做了一个巧妙的“实验”，用以说明如何检验“人工智能”。

英国数学家，计算机学家图灵

这个“实验”也就是后来所说的“图灵测试（Turingtest）”：一名人类测试者将通过键盘和显示屏这样不会直接暴露身份的方式，同时与一名人类和一台计算机进行“网聊”，当人类测试者中有七成都无法正确判断交谈的两个“人”孰真孰假时，就认为这个计算机已经达到了“人工智能”的标准。

虽然，图灵测试只是一个启发性的思想实验，而非可以具体执行的判断方法，但他却通过这个假设，阐明了“智能”判断的模糊性与主观性。而他的判断手段，则与当时心理学界崛起的斯纳金的“行为主义”不谋而合。简而言之，基于唯物主义的一元论思维，图灵和斯金纳都认为，智能——甚至所有思维活动，都只是一套信息处理系统对外部刺激做出反应的运算模式。因此，对于其他旁观者来说，只要两套系统在面对同样的输入时都能够输出一样的反馈，就可以认为他们是“同类”。

1956年，人工智能正式成为了一个科学上的概念，而后涌现了很多新的研究目标与方向。比如说，就像人们在走迷宫遇到死胡同时会原路返回寻找新的路线类似，工程师为了使得人工智能达成某种目标，编写出了一种可以进行回溯的算法，即“搜索式推理”。

而工程师为了能用人类语言与计算机进行“交流”，又构建出了“语义网”。由此第一个会说英语的聊天机器人ELIZA诞生了，不过ELIZA仅仅只能按照固定套路进行作答。

而在20世纪60年代后期，有学者指出人工智能应该简化自己的模型，让人工智能更好的学习一些基本原则。在这一思潮的影响下，人工智能开始了新一轮的发展，麻省理工学院开发了一种早期的自然语言理解计算机程序，名为SHRDLU。工程师对SHRDLU的程序积木世界进行了极大的简化，里面所有物体和位置的集合可以用大约50个单词进行描述。模型极简化的成果，就是其内部语言组合数量少，程序基本能够完全理解用户的指令意义。在外部表现上，就是用户可以与装载了SHRDLU程序的电脑进行简单的对话，并可以用语言指令查询、移动程序中的虚拟积木。SHRDLU一度被认为是人工智能的成功范例，但当工程师试图将这个系统用来处理现实生活中的一些问题时，却惨遭滑铁卢。

而这之后，人工智能的发展也与图灵的想象有所不同。

现实中的人工智能发展，并未在模仿人类的“通用人工智能（也称强人工智能）”上集中太多资源。相反，人工智能研究自正式诞生起，就专注于让计算机通过“机器学习”来自我优化算法，最后形成可以高效率解决特定问题的“专家系统”。由于这些人工智能只会在限定好的狭窄领域中发挥作用，不具备、也不追求全面复杂的认知能力，因此也被称为“弱人工智能”。

但是无论如何，这些可以高效率解决特定问题的人工智能，在解放劳动力，推动现代工厂、组织智能化管理上都起到了关键作用。而随着大数据、云计算以及其他先进技术的发展，人工智能正在朝着更加多远，更加开放的方向发展。随着系统收集的数据量增加，AI算法的完善，以及相关芯片处理能力的提升，人工智能的应用也将逐渐从特定的碎片场景转变为更加深度、更加多元的应用场景。

人工智能让芯片的处理能力得以提升｜Pixabay

从小的方面来看，人工智能其实已经渐渐渗透进了我们生活的方方面面。比如喊一声就能回应你的智能语音系统，例如siri，小爱同学；再比如在超市付款时使用的人脸识别；抑或穿梭在餐厅抑或酒店的智能送餐机器人，这些其实都是人工智能的应用实例。而从大的方面来看，人工智能在制造、交通、能源及互联网行业的应用正在逐步加深，推动了数字经济生态链的构建与发展。

虽然脑科学与人工智能之间仍然存在巨大的鸿沟，通用人工智能仍然像个科幻梦，但就像萧伯纳所说的那样“科学始终是不公道的，如果它不提出十个问题，也永远无法解决一个问题。”科学总是在曲折中前进，而我们只要保持在不断探索中，虽无法预测是否能达到既定的目的地，但途中终归会有收获。

参考文献

[1]王永庆.人工智能原理与方法[M].西安交通大学出版社,1998.

[2]Russell,StuartJ.ArtificialIntelligence:AModernApproach[J].人民邮电出版社,2002.

[3]GabbayDM,HoggerCJ,RobinsonJA,etal.Handbookoflogicinartificialintelligenceandlogicprogramming.Vol.1:Logicalfoundations.,1995.

[4]胡宝洁,赵忠文,曾峦,张永继.图灵机和图灵测试[J].电脑知识与技术：学术版,2006(8):2.

[5]赵楠,缐珊珊.人工智能应用现状及关键技术研究[J].中国电子科学研究院学报,2017,12(6):3.

[6]GeneserethMR,NilssonNJ.LogicalFoundationofArtificialIntelligence[J].brainbroadresearchinartificialintelligence&neuroscience,1987

作者：张雨晨

编辑：韩越扬

[责编：赵宇豪]

人工智能的历史、现状和未来

2018年2月25日，在平昌冬奥会闭幕式“北京8分钟”表演中，由沈阳新松机器人自动化股份有限公司研发的智能移动机器人与轮滑演员进行表演。新华社记者李钢/摄

2018年5月3日，中国科学院发布国内首款云端人工智能芯片，理论峰值速度达每秒128万亿次定点运算，达到世界先进水平。新华社记者金立旺/摄

2017年10月，在沙特阿拉伯首都利雅得举行的“未来投资倡议”大会上，机器人索菲亚被授予沙特公民身份，她也因此成为全球首个获得公民身份的机器人。图为2018年7月10日，在香港会展中心，机器人索菲亚亮相主舞台。ISAACLAWRENCE/视觉中国

2018年11月22日，在“伟大的变革——庆祝改革开放40周年大型展览”上，第三代国产骨科手术机器人“天玑”正在模拟做手术，它是国际上首个适应症覆盖脊柱全节段和骨盆髋臼手术的骨科机器人，性能指标达到国际领先水平。麦田/视觉中国

如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网，人工智能正成为推动人类进入智能时代的决定性力量。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义，纷纷转型发展，抢滩布局人工智能创新生态。世界主要发达国家均把发展人工智能作为提升国家竞争力、维护国家安全的重大战略，力图在国际科技竞争中掌握主导权。习近平总书记在十九届中央政治局第九次集体学习时深刻指出，加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。错失一个机遇，就有可能错过整整一个时代。新一轮科技革命与产业变革已曙光可见，在这场关乎前途命运的大赛场上，我们必须抢抓机遇、奋起直追、力争超越。

概念与历程

了解人工智能向何处去，首先要知道人工智能从何处来。1956年夏，麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”，首次提出“人工智能（ArtificialIntelligence，简称AI）”这一概念，标志着人工智能学科的诞生。

人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学，研究目的是促使智能机器会听（语音识别、机器翻译等）、会看（图像识别、文字识别等）、会说（语音合成、人机对话等）、会思考（人机对弈、定理证明等）、会学习（机器学习、知识表示等）、会行动（机器人、自动驾驶汽车等）。

人工智能充满未知的探索道路曲折起伏。如何描述人工智能自1956年以来60余年的发展历程，学术界可谓仁者见仁、智者见智。我们将人工智能的发展历程划分为以下6个阶段：

一是起步发展期：1956年—20世纪60年代初。人工智能概念提出后，相继取得了一批令人瞩目的研究成果，如机器定理证明、跳棋程序等，掀起人工智能发展的第一个高潮。

二是反思发展期：20世纪60年代—70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望，人们开始尝试更具挑战性的任务，并提出了一些不切实际的研发目标。然而，接二连三的失败和预期目标的落空（例如，无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等），使人工智能的发展走入低谷。

三是应用发展期：20世纪70年代初—80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题，实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功，推动人工智能走入应用发展的新高潮。

四是低迷发展期：20世纪80年代中—90年代中。随着人工智能的应用规模不断扩大，专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。

五是稳步发展期：20世纪90年代中—2010年。由于网络技术特别是互联网技术的发展，加速了人工智能的创新研究，促使人工智能技术进一步走向实用化。1997年国际商业机器公司（简称IBM）深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫，2008年IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。

六是蓬勃发展期：2011年至今。随着大数据、云计算、互联网、物联网等信息技术的发展，泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展，大幅跨越了科学与应用之间的“技术鸿沟”，诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破，迎来爆发式增长的新高潮。

现状与影响

对于人工智能的发展现状，社会上存在一些“炒作”。比如说，认为人工智能系统的智能水平即将全面超越人类水平、30年内机器人将统治世界、人类将成为人工智能的奴隶，等等。这些有意无意的“炒作”和错误认识会给人工智能的发展带来不利影响。因此，制定人工智能发展的战略、方针和政策，首先要准确把握人工智能技术和产业发展的现状。

专用人工智能取得重要突破。从可应用性看，人工智能大体可分为专用人工智能和通用人工智能。面向特定任务（比如下围棋）的专用人工智能系统由于任务单一、需求明确、应用边界清晰、领域知识丰富、建模相对简单，形成了人工智能领域的单点突破，在局部智能水平的单项测试中可以超越人类智能。人工智能的近期进展主要集中在专用智能领域。例如，阿尔法狗（AlphaGo）在围棋比赛中战胜人类冠军，人工智能程序在大规模图像识别和人脸识别中达到了超越人类的水平，人工智能系统诊断皮肤癌达到专业医生水平。

通用人工智能尚处于起步阶段。人的大脑是一个通用的智能系统，能举一反三、融会贯通，可处理视觉、听觉、判断、推理、学习、思考、规划、设计等各类问题，可谓“一脑万用”。真正意义上完备的人工智能系统应该是一个通用的智能系统。目前，虽然专用人工智能领域已取得突破性进展，但是通用人工智能领域的研究与应用仍然任重而道远，人工智能总体发展水平仍处于起步阶段。当前的人工智能系统在信息感知、机器学习等“浅层智能”方面进步显著，但是在概念抽象和推理决策等“深层智能”方面的能力还很薄弱。总体上看，目前的人工智能系统可谓有智能没智慧、有智商没情商、会计算不会“算计”、有专才而无通才。因此，人工智能依旧存在明显的局限性，依然还有很多“不能”，与人类智慧还相差甚远。

人工智能创新创业如火如荼。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义，纷纷调整发展战略。比如，谷歌在其2017年年度开发者大会上明确提出发展战略从“移动优先”转向“人工智能优先”，微软2017财年年报首次将人工智能作为公司发展愿景。人工智能领域处于创新创业的前沿。麦肯锡公司报告指出，2016年全球人工智能研发投入超300亿美元并处于高速增长阶段；全球知名风投调研机构CBInsights报告显示，2017年全球新成立人工智能创业公司1100家，人工智能领域共获得投资152亿美元，同比增长141%。

创新生态布局成为人工智能产业发展的战略高地。信息技术和产业的发展史，就是新老信息产业巨头抢滩布局信息产业创新生态的更替史。例如，传统信息产业代表企业有微软、英特尔、IBM、甲骨文等，互联网和移动互联网时代信息产业代表企业有谷歌、苹果、脸书、亚马逊、阿里巴巴、腾讯、百度等。人工智能创新生态包括纵向的数据平台、开源算法、计算芯片、基础软件、图形处理器等技术生态系统和横向的智能制造、智能医疗、智能安防、智能零售、智能家居等商业和应用生态系统。目前智能科技时代的信息产业格局还没有形成垄断，因此全球科技产业巨头都在积极推动人工智能技术生态的研发布局，全力抢占人工智能相关产业的制高点。

人工智能的社会影响日益凸显。一方面，人工智能作为新一轮科技革命和产业变革的核心力量，正在推动传统产业升级换代，驱动“无人经济”快速发展，在智能交通、智能家居、智能医疗等民生领域产生积极正面影响。另一方面，个人信息和隐私保护、人工智能创作内容的知识产权、人工智能系统可能存在的歧视和偏见、无人驾驶系统的交通法规、脑机接口和人机共生的科技伦理等问题已经显现出来，需要抓紧提供解决方案。

趋势与展望

经过60多年的发展，人工智能在算法、算力（计算能力）和算料（数据）等“三算”方面取得了重要突破，正处于从“不能用”到“可以用”的技术拐点，但是距离“很好用”还有诸多瓶颈。那么在可以预见的未来，人工智能发展将会出现怎样的趋势与特征呢？

从专用智能向通用智能发展。如何实现从专用人工智能向通用人工智能的跨越式发展，既是下一代人工智能发展的必然趋势，也是研究与应用领域的重大挑战。2016年10月，美国国家科学技术委员会发布《国家人工智能研究与发展战略计划》，提出在美国的人工智能中长期发展策略中要着重研究通用人工智能。阿尔法狗系统开发团队创始人戴密斯·哈萨比斯提出朝着“创造解决世界上一切问题的通用人工智能”这一目标前进。微软在2017年成立了通用人工智能实验室，众多感知、学习、推理、自然语言理解等方面的科学家参与其中。

从人工智能向人机混合智能发展。借鉴脑科学和认知科学的研究成果是人工智能的一个重要研究方向。人机混合智能旨在将人的作用或认知模型引入到人工智能系统中，提升人工智能系统的性能，使人工智能成为人类智能的自然延伸和拓展，通过人机协同更加高效地解决复杂问题。在我国新一代人工智能规划和美国脑计划中，人机混合智能都是重要的研发方向。

从“人工+智能”向自主智能系统发展。当前人工智能领域的大量研究集中在深度学习，但是深度学习的局限是需要大量人工干预，比如人工设计深度神经网络模型、人工设定应用场景、人工采集和标注大量训练数据、用户需要人工适配智能系统等，非常费时费力。因此，科研人员开始关注减少人工干预的自主智能方法，提高机器智能对环境的自主学习能力。例如阿尔法狗系统的后续版本阿尔法元从零开始，通过自我对弈强化学习实现围棋、国际象棋、日本将棋的“通用棋类人工智能”。在人工智能系统的自动化设计方面，2017年谷歌提出的自动化学习系统（AutoML）试图通过自动创建机器学习系统降低人员成本。

人工智能将加速与其他学科领域交叉渗透。人工智能本身是一门综合性的前沿学科和高度交叉的复合型学科，研究范畴广泛而又异常复杂，其发展需要与计算机科学、数学、认知科学、神经科学和社会科学等学科深度融合。随着超分辨率光学成像、光遗传学调控、透明脑、体细胞克隆等技术的突破，脑与认知科学的发展开启了新时代，能够大规模、更精细解析智力的神经环路基础和机制，人工智能将进入生物启发的智能阶段，依赖于生物学、脑科学、生命科学和心理学等学科的发现，将机理变为可计算的模型，同时人工智能也会促进脑科学、认知科学、生命科学甚至化学、物理、天文学等传统科学的发展。

人工智能产业将蓬勃发展。随着人工智能技术的进一步成熟以及政府和产业界投入的日益增长，人工智能应用的云端化将不断加速，全球人工智能产业规模在未来10年将进入高速增长期。例如，2016年9月，咨询公司埃森哲发布报告指出，人工智能技术的应用将为经济发展注入新动力，可在现有基础上将劳动生产率提高40%；到2035年，美、日、英、德、法等12个发达国家的年均经济增长率可以翻一番。2018年麦肯锡公司的研究报告预测，到2030年，约70%的公司将采用至少一种形式的人工智能，人工智能新增经济规模将达到13万亿美元。

人工智能将推动人类进入普惠型智能社会。“人工智能+X”的创新模式将随着技术和产业的发展日趋成熟，对生产力和产业结构产生革命性影响，并推动人类进入普惠型智能社会。2017年国际数据公司IDC在《信息流引领人工智能新时代》白皮书中指出，未来5年人工智能将提升各行业运转效率。我国经济社会转型升级对人工智能有重大需求，在消费场景和行业应用的需求牵引下，需要打破人工智能的感知瓶颈、交互瓶颈和决策瓶颈，促进人工智能技术与社会各行各业的融合提升，建设若干标杆性的应用场景创新，实现低成本、高效益、广范围的普惠型智能社会。

人工智能领域的国际竞争将日益激烈。当前，人工智能领域的国际竞赛已经拉开帷幕，并且将日趋白热化。2018年4月，欧盟委员会计划2018—2020年在人工智能领域投资240亿美元；法国总统在2018年5月宣布《法国人工智能战略》，目的是迎接人工智能发展的新时代，使法国成为人工智能强国；2018年6月，日本《未来投资战略2018》重点推动物联网建设和人工智能的应用。世界军事强国也已逐步形成以加速发展智能化武器装备为核心的竞争态势，例如美国特朗普政府发布的首份《国防战略》报告即谋求通过人工智能等技术创新保持军事优势，确保美国打赢未来战争；俄罗斯2017年提出军工拥抱“智能化”，让导弹和无人机这样的“传统”兵器威力倍增。

人工智能的社会学将提上议程。为了确保人工智能的健康可持续发展，使其发展成果造福于民，需要从社会学的角度系统全面地研究人工智能对人类社会的影响，制定完善人工智能法律法规，规避可能的风险。2017年9月，联合国犯罪和司法研究所（UNICRI）决定在海牙成立第一个联合国人工智能和机器人中心，规范人工智能的发展。美国白宫多次组织人工智能领域法律法规问题的研讨会、咨询会。特斯拉等产业巨头牵头成立OpenAI等机构，旨在“以有利于整个人类的方式促进和发展友好的人工智能”。

态势与思考

当前，我国人工智能发展的总体态势良好。但是我们也要清醒看到，我国人工智能发展存在过热和泡沫化风险，特别在基础研究、技术体系、应用生态、创新人才、法律规范等方面仍然存在不少值得重视的问题。总体而言，我国人工智能发展现状可以用“高度重视，态势喜人，差距不小，前景看好”来概括。

高度重视。党中央、国务院高度重视并大力支持发展人工智能。习近平总书记在党的十九大、2018年两院院士大会、全国网络安全和信息化工作会议、十九届中央政治局第九次集体学习等场合多次强调要加快推进新一代人工智能的发展。2017年7月，国务院发布《新一代人工智能发展规划》，将新一代人工智能放在国家战略层面进行部署，描绘了面向2030年的我国人工智能发展路线图，旨在构筑人工智能先发优势，把握新一轮科技革命战略主动。国家发改委、工信部、科技部、教育部等国家部委和北京、上海、广东、江苏、浙江等地方政府都推出了发展人工智能的鼓励政策。

态势喜人。据清华大学发布的《中国人工智能发展报告2018》统计，我国已成为全球人工智能投融资规模最大的国家，我国人工智能企业在人脸识别、语音识别、安防监控、智能音箱、智能家居等人工智能应用领域处于国际前列。根据2017年爱思唯尔文献数据库统计结果，我国在人工智能领域发表的论文数量已居世界第一。近两年，中国科学院大学、清华大学、北京大学等高校纷纷成立人工智能学院，2015年开始的中国人工智能大会已连续成功召开四届并且规模不断扩大。总体来说，我国人工智能领域的创新创业、教育科研活动非常活跃。

差距不小。目前我国在人工智能前沿理论创新方面总体上尚处于“跟跑”地位，大部分创新偏重于技术应用，在基础研究、原创成果、顶尖人才、技术生态、基础平台、标准规范等方面距离世界领先水平还存在明显差距。在全球人工智能人才700强中，中国虽然入选人数名列第二，但远远低于约占总量一半的美国。2018年市场研究顾问公司CompassIntelligence对全球100多家人工智能计算芯片企业进行了排名，我国没有一家企业进入前十。另外，我国人工智能开源社区和技术生态布局相对滞后，技术平台建设力度有待加强，国际影响力有待提高。我国参与制定人工智能国际标准的积极性和力度不够，国内标准制定和实施也较为滞后。我国对人工智能可能产生的社会影响还缺少深度分析，制定完善人工智能相关法律法规的进程需要加快。

前景看好。我国发展人工智能具有市场规模、应用场景、数据资源、人力资源、智能手机普及、资金投入、国家政策支持等多方面的综合优势，人工智能发展前景看好。全球顶尖管理咨询公司埃森哲于2017年发布的《人工智能：助力中国经济增长》报告显示，到2035年人工智能有望推动中国劳动生产率提高27%。我国发布的《新一代人工智能发展规划》提出，到2030年人工智能核心产业规模超过1万亿元，带动相关产业规模超过10万亿元。在我国未来的发展征程中，“智能红利”将有望弥补人口红利的不足。

当前是我国加强人工智能布局、收获人工智能红利、引领智能时代的重大历史机遇期，如何在人工智能蓬勃发展的浪潮中选择好中国路径、抢抓中国机遇、展现中国智慧等，需要深入思考。

树立理性务实的发展理念。任何事物的发展不可能一直处于高位，有高潮必有低谷，这是客观规律。实现机器在任意现实环境的自主智能和通用智能，仍然需要中长期理论和技术积累，并且人工智能对工业、交通、医疗等传统领域的渗透和融合是个长期过程，很难一蹴而就。因此，发展人工智能要充分考虑到人工智能技术的局限性，充分认识到人工智能重塑传统产业的长期性和艰巨性，理性分析人工智能发展需求，理性设定人工智能发展目标，理性选择人工智能发展路径，务实推进人工智能发展举措，只有这样才能确保人工智能健康可持续发展。

重视固本强基的原创研究。人工智能前沿基础理论是人工智能技术突破、行业革新、产业化推进的基石。面临发展的临界点，要想取得最终的话语权，必须在人工智能基础理论和前沿技术方面取得重大突破。我们要按照习近平总书记提出的支持科学家勇闯人工智能科技前沿“无人区”的要求，努力在人工智能发展方向和理论、方法、工具、系统等方面取得变革性、颠覆性突破，形成具有国际影响力的人工智能原创理论体系，为构建我国自主可控的人工智能技术创新生态提供领先跨越的理论支撑。

构建自主可控的创新生态。我国人工智能开源社区和技术创新生态布局相对滞后，技术平台建设力度有待加强。我们要以问题为导向，主攻关键核心技术，加快建立新一代人工智能关键共性技术体系，全面增强人工智能科技创新能力，确保人工智能关键核心技术牢牢掌握在自己手里。要着力防范人工智能时代“空心化”风险，系统布局并重点发展人工智能领域的“新核高基”：“新”指新型开放创新生态，如产学研融合等；“核”指核心关键技术与器件，如先进机器学习技术、鲁棒模式识别技术、低功耗智能计算芯片等；“高”指高端综合应用系统与平台，如机器学习软硬件平台、大型数据平台等；“基”指具有重大原创意义和技术带动性的基础理论与方法，如脑机接口、类脑智能等。同时，我们要重视人工智能技术标准的建设、产品性能与系统安全的测试。特别是我国在人工智能技术应用方面走在世界前列，在人工智能国际标准制定方面应当掌握话语权，并通过实施标准加速人工智能驱动经济社会转型升级的进程。

推动共担共享的全球治理。目前看，发达国家通过人工智能技术创新掌控了产业链上游资源，难以逾越的技术鸿沟和产业壁垒有可能进一步拉大发达国家和发展中国家的生产力发展水平差距。在发展中国家中，我国有望成为全球人工智能竞争中的领跑者，应布局构建开放共享、质优价廉、普惠全球的人工智能技术和应用平台，配合“一带一路”建设，让“智能红利”助推共建人类命运共同体。

作者：中央人民政府驻香港特别行政区联络办公室副主任、中国科学院院士

人工智能专业：就业前景分析（附图表）

资料来源：允能智库、中商产业研究院整理

各城市人工智能发展实力

根据2018年《中国人工智能产业发展城市排行榜》，从企业规模、政策基础、学术技术、产业基础、和资本环境五个层面测评市场发展人工智能的实力和前景。北京、上海两地人工智能产业发展较为领先，深圳的各项指标表现优异，位居全国第三。在良好的发展环境下，深圳的人工智能产业发展已经初具规模，尤其是在技术落地，实现商业化方面具有先发优势。

数据来源：中商产业研究院整理

各城市人工智能人才需求

人工智能本身就是多技能的高度融合，不仅有传统技术与数据科学的融合，还有从数据采集，到数据存储、分析、应用、自动控制等过程的融合。随着人工智能落地应用的深化和进阶，技能的碰撞将不断增加，要求人工智能人才掌握多种技能、复杂维度解决问题不再是偶然。

BOSS直聘数据显示，2018年八成人工智能岗位集中在北京、上海、杭州、深圳和广州五大城市。北京以40.3%的占比遥遥领先，较其他城市有数量级优势；上海以14.5%位列第二；杭州以10.7%排名第三，略领先深圳的10.5%占比。广州占比4.1%，成都、南京分别占比2.7%和2.5%。

数据来源：BOSS直聘2018、中商产业研究院整理

人工智能行业市场广阔就业前景大好

近年来，我国在人工智能领域密集出台相关政策，更在2017、2018以及2019年连续三年的政府工作报告中提到人工智能，可以看出在世界主要大国纷纷在人工智能领域出台国家战略，抢占人工智能时代制高点的环境下，中国政府把人工智能上升到国家战略的决心。截至2018年11月，全国已有15个省市发布人工智能规划，其中12个制定了具体的产业规模发展目标。通过一系列政策与资金扶持，各省市不断强化当地人工智能的技术研发与应用，为人工智能产业提供了广阔发展前景。

资料来源：中商产业研究院整理

我国政府高度重视人工智能的技术进步与产业发展，人工智能已上升国家战略。《新一代人工智能发展规划》提出“到2030年，使中国成为世界主要人工智能创新中心”。人工智能市场前景巨大，随着人工智能技术的逐渐成熟，科技、制造业等业界巨头布局的深入，应用场景不断扩展。2018年中国人工智能市场规模约为238.2亿元，增长率达到56.6%。预计2019年，中国人工智能市场规模将超300亿元，到2020年这一规模将近500亿元。

数据来源：中商产业研究院整理

发展趋势

当前，我国人工智能产业发展的基础条件已经具备，未来十年内都将是人工智能技术加速普及的爆发期。人工智能专用芯片有望成为下一个爆发点，智能语音产业链逐渐成形，产业规模大幅提升。同时，人工智能具有显著的溢出效应，将带动其他相关技术的持续进步，助推传统产业转型升级和战略性新兴产业整体性突破。未来，人工智能将呈现四个主要发展趋势。

1、人工智能技术进入大规模商用阶段，人工智能产品全面进入消费级市场。

2、基于深度学习的人工智能的认知能力将达到人类专家顾问级别。

3、人工智能实用主义倾向显著，未来将成为一种可购买的智慧服务。

4、人工智能技术将严重冲击劳动密集型产业，改变全球经济生态。

更多请关注韦加教育官方网站返回搜狐，查看更多

AI：人工智能的多模态融合模型的简介、发展以及未来趋势

人工智能的多模态融合模型的简介、发展以及未来趋势

多模态融合模型的简介

多模态融合模型的发展趋势

多模态常见应用分类

1、按照模态分类

2、按照功能分类

多模态模型案例

相关文章：Paper：《MultimodalMachineLearning:ASurveyandTaxonomy，多模态机器学习:综述与分类》翻译与解读

人工智能的多模态融合模型的简介、发展以及未来趋势多模态融合模型的简介

"模态"（Modality）是德国理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道，如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体（文字、图片、音频、视频）、环境等多个通道与计算机进行交流，充分模拟人与人之间的交互方式。每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。不同模态（例如图像、文本、音频）中学习的方式存在很大差异。为了让人工智能在理解我们周围的世界方面取得进展，它需要能够解释和推理关于多模态信息。多模态机器学习旨在建立能够处理和关联来自多种模态信息的模型。从早期的视听语音识别研究到最近对语言和视觉模型的兴趣激增，多模态机器学习是一个充满活力的多学科领域，其重要性日益增加，具有非凡的潜力。早期的深度学习算法专注于从一个单一的数据源训练其模型。例如，看—基于图像训练的CV模型和基于文本训练的NLP模型，听—基于声学模型的唤醒词检测、噪音消除的语音处理。早期的深度学习与单模态人工智能有关，其结果都被映射到一个单一的数据类型来源。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合，为计算器提供更接近于人类感知的场景。多模态学习成为当中的重要趋势，它可以被应用在归一、表示、转化、翻译、对齐、融合及协同学习上(representation/translation/alignment/fusion/co-learning)。按照下游任务则可以划分为理解式任务(视觉问答、视觉推理、图文检索等)和生成式任务(文本生成(对话/故事/诗歌)、图像生成文本、文字生成图像等)。

多模态融合模型的发展趋势

AndrewNg在年度总结时说道，虽然GPT-3和EfficientNet等单独针对文本及图像等任务的深度学习模型备受瞩目，但这一年中最令人印象深刻的还是，AI模型在发现文本与图像间关系中取得了进步。，2021年，OpenAI开启了多模态学习的重要一年，比如CLIP匹配图像和文本，Dall·E生成与输入文本对应的图像。DeepMind的PerceiverIO可以对文本、图像、视频和点云进行分类。斯坦福大学的ConVIRT为医用X射线图像添加了文本标签。现实中，图像和文本其实非常复杂，以至于在过去，研究人员只能全神贯注的着重其中之一。在这样做的过程中，他们开发了非常不同的技术。然而，在过去十年中，计算机视觉和自然语言处理已经融合到神经网络上，为合并这两种模式的统一模型打开了大门。 JeffDean在长文展望中总结到，一些最先进的多模态模型可以接受语言、图像、语言和视频等多种不同的输入模态，产生不同的输出模态。这是一个令人兴奋的方向，就像真实世界一样，有些东西在多模态数据中更容易学习。例如，阅读某些东西并观看图片，比仅仅阅读它更有用。图像和文本配对有助于多语种检索任务，并且更好地理解如何配对文本和图像输入可以提升图像描述任务。视觉和文本数据上的协同训练有助于提升视觉分类任务的准确率和稳健性，同时图像、视频和语音任务上的联合训练能够提升所有模态的泛化性能。目前还无法建立一个通用的“视觉机器”，无法做到统一模型同时满足不同场景要求。这意味着当下机器学习的训练成本较高，也没有达到产业化应用的理想状态。要解决这个问题，需要从端到端打通各个模态之间的关系，形成可以真正多维度交互的智能机器，让感知智能升级为认知智能。未来发展趋势，多场景下的多模态交互成为提升应用性能的重点。以多模态融合技术为核心的感知、交互和智慧协同能力，不断支撑各类终端和应用的智能化水平提升。人工智能正在从语音、文字、视觉等单模态智能，向着多种模态融合发展，结合分布式平台的计算能力，实现更高精度的场景构建，和对动态场景的处理能力。未百度研究院认为，下一步是跨模态统一建模，增强模型的跨模态语义对齐能力。JeffDean认为，所有这些趋势都指向了训练能力更强的通用性模型，这些模型可以处理多种数据模态并解决数千甚至数万个任务。在接下来的几年，我们将通过下一代架构Pathways来追求这一愿景，并期望在该领域看到实质性进展。

参考文章

TopAIStoriesof2021:TransformersTakeOver,ModelsBalloon,MultimodalAITakesOff,GovernmentsCrackDown-TheBatch|DeepLearning.AI

JeffDean长文展望：2021年之后，机器学习领域的五大潜力趋势

多模态常见应用分类1、按照模态分类

模态分类

子分类

Language-Audio

(1.1)、Text-to-SpeechSynthesis:给定文本生成对应的声音

(1.2)、AudioCaptioning：给定一段语音，生成一句话总结并描述主要内容。(不是语音识别)

Vision-Audio

(2.1)、Audio-VisualSpeechRecognition(视听语音识别)：给定某人的视频及语音进行语音识别。

(2.2)、VideoSoundSeparation(视频声源分离)：给定视频和声音信号(包含多个声源)，进行声源定位与分离。

(2.3)、ImageGenerationfromAudio:给定声音，生成与其相关的图像。

(2.4)、Speech-conditionedFacegeneration：给定一段话，生成说话人的视频。

(2.5)、Audio-Driven3DFacialAnimation：给定一段话与3D人脸模版，生成说话的人脸3D动画。

Vision-Language

(3.1)、Image/Video-TextRetrieval(图(视频)文检索):图像/视频文本的相互检索。

(3.2)、Image/VideoCaptioning(图像/视频描述)：给定一个图像/视频，生成文本描述其主要内容。

(3.3)、VisualQuestionAnswering(视觉问答)：给定一个图像/视频与一个问题，预测答案。

(3.4)、Image/VideoGenerationfromText：给定文本，生成相应的图像或视频。

(3.5)、MultimodalMachineTranslation：给定一种语言的文本与该文本对应的图像，翻译为另外一种语言。

(3.6)、Vision-and-LanguageNavigation(视觉-语言导航)：给定自然语言进行指导，使得智能体根据视觉传感器导航到特定的目标。

(3.7)、MultimodalDialog(多模态对话)：给定图像，历史对话，以及与图像相关的问题，预测该问题的回答。

2、按照功能分类

模态分类

子分类

定位相关

(1.1)、VisualGrounding：给定一个图像与一段文本，定位到文本所描述的物体。

(1.2)、TemporalLanguageLocalization:给定一个视频即一段文本，定位到文本所描述的动作(预测起止时间)。

(1.3)、VideoSummarizationfromtextquery：给定一段话(query)与一个视频，根据这段话的内容进行视频摘要，预测视频关键帧(或关键片段)组合为一个短的摘要视频。

(1.4)、VideoSegmentationfromNaturalLanguageQuery:给定一段话(query)与一个视频，分割得到query所指示的物体。

(1.5)、Video-LanguageInference:给定视频(包括视频的一些字幕信息)，还有一段文本假设(hypothesis)，判断二者是否存在语义蕴含(二分类)，即判断视频内容是否包含这段文本的语义。

(1.6)、ObjectTrackingfromNaturalLanguageQuery:给定一段视频和一些文本，进行定位匹配。

(1.7)、Language-guidedImage/VideoEditing:一句话自动修图。给定一段指令(文本)，自动进行图像/视频的编辑。

情感分析相关

AffectComputing(情感计算)：使用语音、视觉(人脸表情)、文本信息、心电、脑电等模态进行情感识别。

其它

MedicalImage：不同医疗图像模态如CT、MRI、PET

RGB-D模态：RGB图与深度图

参考文章：多模态学习综述及最新方向-知乎

多模态模型案例

时间

发明者

模型名称

功能

2021年1月

OpenAI

CLIP&DALL-E

功能：

DALL·E可以基于短文本提示（如一句话或一段文字）生成对应的图像。以文搜图，按照文字描述去生成对应图片。使用艺术家萨尔瓦多-达利和皮克斯的瓦力的谐音来命名。CLIP则可以基于文本提示对图片进行分类。但是，发布之后，有研究发现CLIP存在种族和性别偏见问题。

原理：在众多图像-文本对上，训练大规模自回归transformer可以通过文本prompt产生具有可控结果的高保真生成模型。

例如，当文本描述为"一个甜甜圈形状的时钟"被发送到该模型时，它就可以生成以下图像。

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人|在线可玩_量子位-CSDN博客

意义：

(1)、开启了2021年多模态学习的新篇章。

(2)、降低了深度学习需要的数据标注量。

(3)、CLIP的zero-shotlearning技术使得在各种数据集上的表现都很好（包括没见过的数据集）。

2021年5月

Google

MUM

功能：多任务统一模型

原理：通过从75种不同语言中挖掘出的上下文信息对用户搜索结果进行优先排序。

2021年9月

百度

DocVQA

功能：文档理解，跨模态文档理解模型ERNIE-Layout。

意义：登顶DocVQA榜首

2021年11月

NVIDIA

GauGAN2

功能：根据输入的文本/简笔画生成对应逼真的风景图、输入图像并编辑部分内容。

原理：它在一个单一的模型中结合了分割映射、修复和文本到图像的生成，使其成为一个强大的多模态工具。

意义：可以用文字和图画的混合来创造逼真的艺术。

Demo：AIDemos|NVIDIAResearch

2021年11月

Microsoft&北大

NÜWA女娲

功能：实现文本/草图转图像、图像补全、文字指示修改图像/视频、文字/草图转视频、视频预测等任务，功能异常强大。

意义：在8种包含图像和视频处理的下游视觉任务上具有出色的合成效果。

2021年12月

NVIDIA

PoEGAN

功能：文字描述、图像分割、草图、风格都可以转化为图片，它还可以同时接受以上几种输入模态的任意两种组合，这便是PoE的含义。

原理：生成器使用全局PoE-Net将不同类型输入的变化混合起来。鉴别器中，作者提出了一种多模态投影鉴别器，将投影鉴别器推广到处理多个条件输入。

意义：PoE可以在单模态输入、多模态输入甚至无输入时生成图片。当使用单个输入模态进行测试时，PoE-GAN的表现优于之前专门为该模态设计的SOTA方法。

2022年1月

百度

ERNIE-ViLG

功能：图文双向生成。

原理：它通过自回归算法将图像生成和文本生成统一建模，实现文图双向生成。

意义：文心ERNIE-ViLG参数规模达到100亿，是目前为止全球最大规模中文跨模态生成模型。刷新文本生成图像、图像描述等多个跨模态生成任务最好效果。

Demo：

文心大模型-产业级知识增强大模型

2022年1月

Facebook&Meta

AV-HuBERT

功能：这通过输入语音音频和唇语视频两种不同形式内容，输出对应文本。

原理：它是一个多模态的自监督学习算法，该模型通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息。AV-HuBERT可以捕捉到音频和视频间的微妙联系。这和人类本身感知语言的模式很相似。

意义：尤其是在嘈杂的环境下，通过读唇可以将语言识别的准确性最高提升6倍。

2022年1月

Facebook&Meta

data2vec

功能：应用于语音、图像和文本。

意义：在计算机视觉、语音任务上优于最佳单一用途算法，首个适用于多模态的高性能自监督算法，语音、图像文本全部SOTA。

嘈杂场景语音识别准确率怎么提？脸书：看嘴唇

人工智能的创新发展与社会影响 认知人工智能的发展前景是什么意思啊