人工智能的历史、现状和未来人工智能语言模型的现状和问题研究报告怎么写

发表时间：2023-07-03 11:00:47

人工智能的历史、现状和未来

2018年2月25日，在平昌冬奥会闭幕式“北京8分钟”表演中，由沈阳新松机器人自动化股份有限公司研发的智能移动机器人与轮滑演员进行表演。新华社记者李钢/摄

2018年5月3日，中国科学院发布国内首款云端人工智能芯片，理论峰值速度达每秒128万亿次定点运算，达到世界先进水平。新华社记者金立旺/摄

2017年10月，在沙特阿拉伯首都利雅得举行的“未来投资倡议”大会上，机器人索菲亚被授予沙特公民身份，她也因此成为全球首个获得公民身份的机器人。图为2018年7月10日，在香港会展中心，机器人索菲亚亮相主舞台。ISAACLAWRENCE/视觉中国

2018年11月22日，在“伟大的变革——庆祝改革开放40周年大型展览”上，第三代国产骨科手术机器人“天玑”正在模拟做手术，它是国际上首个适应症覆盖脊柱全节段和骨盆髋臼手术的骨科机器人，性能指标达到国际领先水平。麦田/视觉中国

如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网，人工智能正成为推动人类进入智能时代的决定性力量。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义，纷纷转型发展，抢滩布局人工智能创新生态。世界主要发达国家均把发展人工智能作为提升国家竞争力、维护国家安全的重大战略，力图在国际科技竞争中掌握主导权。习近平总书记在十九届中央政治局第九次集体学习时深刻指出，加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。错失一个机遇，就有可能错过整整一个时代。新一轮科技革命与产业变革已曙光可见，在这场关乎前途命运的大赛场上，我们必须抢抓机遇、奋起直追、力争超越。

概念与历程

了解人工智能向何处去，首先要知道人工智能从何处来。1956年夏，麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”，首次提出“人工智能（ArtificialIntelligence，简称AI）”这一概念，标志着人工智能学科的诞生。

人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学，研究目的是促使智能机器会听（语音识别、机器翻译等）、会看（图像识别、文字识别等）、会说（语音合成、人机对话等）、会思考（人机对弈、定理证明等）、会学习（机器学习、知识表示等）、会行动（机器人、自动驾驶汽车等）。

人工智能充满未知的探索道路曲折起伏。如何描述人工智能自1956年以来60余年的发展历程，学术界可谓仁者见仁、智者见智。我们将人工智能的发展历程划分为以下6个阶段：

一是起步发展期：1956年—20世纪60年代初。人工智能概念提出后，相继取得了一批令人瞩目的研究成果，如机器定理证明、跳棋程序等，掀起人工智能发展的第一个高潮。

二是反思发展期：20世纪60年代—70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望，人们开始尝试更具挑战性的任务，并提出了一些不切实际的研发目标。然而，接二连三的失败和预期目标的落空（例如，无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等），使人工智能的发展走入低谷。

三是应用发展期：20世纪70年代初—80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题，实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功，推动人工智能走入应用发展的新高潮。

四是低迷发展期：20世纪80年代中—90年代中。随着人工智能的应用规模不断扩大，专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。

五是稳步发展期：20世纪90年代中—2010年。由于网络技术特别是互联网技术的发展，加速了人工智能的创新研究，促使人工智能技术进一步走向实用化。1997年国际商业机器公司（简称IBM）深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫，2008年IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。

六是蓬勃发展期：2011年至今。随着大数据、云计算、互联网、物联网等信息技术的发展，泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展，大幅跨越了科学与应用之间的“技术鸿沟”，诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破，迎来爆发式增长的新高潮。

现状与影响

对于人工智能的发展现状，社会上存在一些“炒作”。比如说，认为人工智能系统的智能水平即将全面超越人类水平、30年内机器人将统治世界、人类将成为人工智能的奴隶，等等。这些有意无意的“炒作”和错误认识会给人工智能的发展带来不利影响。因此，制定人工智能发展的战略、方针和政策，首先要准确把握人工智能技术和产业发展的现状。

专用人工智能取得重要突破。从可应用性看，人工智能大体可分为专用人工智能和通用人工智能。面向特定任务（比如下围棋）的专用人工智能系统由于任务单一、需求明确、应用边界清晰、领域知识丰富、建模相对简单，形成了人工智能领域的单点突破，在局部智能水平的单项测试中可以超越人类智能。人工智能的近期进展主要集中在专用智能领域。例如，阿尔法狗（AlphaGo）在围棋比赛中战胜人类冠军，人工智能程序在大规模图像识别和人脸识别中达到了超越人类的水平，人工智能系统诊断皮肤癌达到专业医生水平。

通用人工智能尚处于起步阶段。人的大脑是一个通用的智能系统，能举一反三、融会贯通，可处理视觉、听觉、判断、推理、学习、思考、规划、设计等各类问题，可谓“一脑万用”。真正意义上完备的人工智能系统应该是一个通用的智能系统。目前，虽然专用人工智能领域已取得突破性进展，但是通用人工智能领域的研究与应用仍然任重而道远，人工智能总体发展水平仍处于起步阶段。当前的人工智能系统在信息感知、机器学习等“浅层智能”方面进步显著，但是在概念抽象和推理决策等“深层智能”方面的能力还很薄弱。总体上看，目前的人工智能系统可谓有智能没智慧、有智商没情商、会计算不会“算计”、有专才而无通才。因此，人工智能依旧存在明显的局限性，依然还有很多“不能”，与人类智慧还相差甚远。

人工智能创新创业如火如荼。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义，纷纷调整发展战略。比如，谷歌在其2017年年度开发者大会上明确提出发展战略从“移动优先”转向“人工智能优先”，微软2017财年年报首次将人工智能作为公司发展愿景。人工智能领域处于创新创业的前沿。麦肯锡公司报告指出，2016年全球人工智能研发投入超300亿美元并处于高速增长阶段；全球知名风投调研机构CBInsights报告显示，2017年全球新成立人工智能创业公司1100家，人工智能领域共获得投资152亿美元，同比增长141%。

创新生态布局成为人工智能产业发展的战略高地。信息技术和产业的发展史，就是新老信息产业巨头抢滩布局信息产业创新生态的更替史。例如，传统信息产业代表企业有微软、英特尔、IBM、甲骨文等，互联网和移动互联网时代信息产业代表企业有谷歌、苹果、脸书、亚马逊、阿里巴巴、腾讯、百度等。人工智能创新生态包括纵向的数据平台、开源算法、计算芯片、基础软件、图形处理器等技术生态系统和横向的智能制造、智能医疗、智能安防、智能零售、智能家居等商业和应用生态系统。目前智能科技时代的信息产业格局还没有形成垄断，因此全球科技产业巨头都在积极推动人工智能技术生态的研发布局，全力抢占人工智能相关产业的制高点。

人工智能的社会影响日益凸显。一方面，人工智能作为新一轮科技革命和产业变革的核心力量，正在推动传统产业升级换代，驱动“无人经济”快速发展，在智能交通、智能家居、智能医疗等民生领域产生积极正面影响。另一方面，个人信息和隐私保护、人工智能创作内容的知识产权、人工智能系统可能存在的歧视和偏见、无人驾驶系统的交通法规、脑机接口和人机共生的科技伦理等问题已经显现出来，需要抓紧提供解决方案。

趋势与展望

经过60多年的发展，人工智能在算法、算力（计算能力）和算料（数据）等“三算”方面取得了重要突破，正处于从“不能用”到“可以用”的技术拐点，但是距离“很好用”还有诸多瓶颈。那么在可以预见的未来，人工智能发展将会出现怎样的趋势与特征呢？

从专用智能向通用智能发展。如何实现从专用人工智能向通用人工智能的跨越式发展，既是下一代人工智能发展的必然趋势，也是研究与应用领域的重大挑战。2016年10月，美国国家科学技术委员会发布《国家人工智能研究与发展战略计划》，提出在美国的人工智能中长期发展策略中要着重研究通用人工智能。阿尔法狗系统开发团队创始人戴密斯·哈萨比斯提出朝着“创造解决世界上一切问题的通用人工智能”这一目标前进。微软在2017年成立了通用人工智能实验室，众多感知、学习、推理、自然语言理解等方面的科学家参与其中。

从人工智能向人机混合智能发展。借鉴脑科学和认知科学的研究成果是人工智能的一个重要研究方向。人机混合智能旨在将人的作用或认知模型引入到人工智能系统中，提升人工智能系统的性能，使人工智能成为人类智能的自然延伸和拓展，通过人机协同更加高效地解决复杂问题。在我国新一代人工智能规划和美国脑计划中，人机混合智能都是重要的研发方向。

从“人工+智能”向自主智能系统发展。当前人工智能领域的大量研究集中在深度学习，但是深度学习的局限是需要大量人工干预，比如人工设计深度神经网络模型、人工设定应用场景、人工采集和标注大量训练数据、用户需要人工适配智能系统等，非常费时费力。因此，科研人员开始关注减少人工干预的自主智能方法，提高机器智能对环境的自主学习能力。例如阿尔法狗系统的后续版本阿尔法元从零开始，通过自我对弈强化学习实现围棋、国际象棋、日本将棋的“通用棋类人工智能”。在人工智能系统的自动化设计方面，2017年谷歌提出的自动化学习系统（AutoML）试图通过自动创建机器学习系统降低人员成本。

人工智能将加速与其他学科领域交叉渗透。人工智能本身是一门综合性的前沿学科和高度交叉的复合型学科，研究范畴广泛而又异常复杂，其发展需要与计算机科学、数学、认知科学、神经科学和社会科学等学科深度融合。随着超分辨率光学成像、光遗传学调控、透明脑、体细胞克隆等技术的突破，脑与认知科学的发展开启了新时代，能够大规模、更精细解析智力的神经环路基础和机制，人工智能将进入生物启发的智能阶段，依赖于生物学、脑科学、生命科学和心理学等学科的发现，将机理变为可计算的模型，同时人工智能也会促进脑科学、认知科学、生命科学甚至化学、物理、天文学等传统科学的发展。

人工智能产业将蓬勃发展。随着人工智能技术的进一步成熟以及政府和产业界投入的日益增长，人工智能应用的云端化将不断加速，全球人工智能产业规模在未来10年将进入高速增长期。例如，2016年9月，咨询公司埃森哲发布报告指出，人工智能技术的应用将为经济发展注入新动力，可在现有基础上将劳动生产率提高40%；到2035年，美、日、英、德、法等12个发达国家的年均经济增长率可以翻一番。2018年麦肯锡公司的研究报告预测，到2030年，约70%的公司将采用至少一种形式的人工智能，人工智能新增经济规模将达到13万亿美元。

人工智能将推动人类进入普惠型智能社会。“人工智能+X”的创新模式将随着技术和产业的发展日趋成熟，对生产力和产业结构产生革命性影响，并推动人类进入普惠型智能社会。2017年国际数据公司IDC在《信息流引领人工智能新时代》白皮书中指出，未来5年人工智能将提升各行业运转效率。我国经济社会转型升级对人工智能有重大需求，在消费场景和行业应用的需求牵引下，需要打破人工智能的感知瓶颈、交互瓶颈和决策瓶颈，促进人工智能技术与社会各行各业的融合提升，建设若干标杆性的应用场景创新，实现低成本、高效益、广范围的普惠型智能社会。

人工智能领域的国际竞争将日益激烈。当前，人工智能领域的国际竞赛已经拉开帷幕，并且将日趋白热化。2018年4月，欧盟委员会计划2018—2020年在人工智能领域投资240亿美元；法国总统在2018年5月宣布《法国人工智能战略》，目的是迎接人工智能发展的新时代，使法国成为人工智能强国；2018年6月，日本《未来投资战略2018》重点推动物联网建设和人工智能的应用。世界军事强国也已逐步形成以加速发展智能化武器装备为核心的竞争态势，例如美国特朗普政府发布的首份《国防战略》报告即谋求通过人工智能等技术创新保持军事优势，确保美国打赢未来战争；俄罗斯2017年提出军工拥抱“智能化”，让导弹和无人机这样的“传统”兵器威力倍增。

人工智能的社会学将提上议程。为了确保人工智能的健康可持续发展，使其发展成果造福于民，需要从社会学的角度系统全面地研究人工智能对人类社会的影响，制定完善人工智能法律法规，规避可能的风险。2017年9月，联合国犯罪和司法研究所（UNICRI）决定在海牙成立第一个联合国人工智能和机器人中心，规范人工智能的发展。美国白宫多次组织人工智能领域法律法规问题的研讨会、咨询会。特斯拉等产业巨头牵头成立OpenAI等机构，旨在“以有利于整个人类的方式促进和发展友好的人工智能”。

态势与思考

当前，我国人工智能发展的总体态势良好。但是我们也要清醒看到，我国人工智能发展存在过热和泡沫化风险，特别在基础研究、技术体系、应用生态、创新人才、法律规范等方面仍然存在不少值得重视的问题。总体而言，我国人工智能发展现状可以用“高度重视，态势喜人，差距不小，前景看好”来概括。

高度重视。党中央、国务院高度重视并大力支持发展人工智能。习近平总书记在党的十九大、2018年两院院士大会、全国网络安全和信息化工作会议、十九届中央政治局第九次集体学习等场合多次强调要加快推进新一代人工智能的发展。2017年7月，国务院发布《新一代人工智能发展规划》，将新一代人工智能放在国家战略层面进行部署，描绘了面向2030年的我国人工智能发展路线图，旨在构筑人工智能先发优势，把握新一轮科技革命战略主动。国家发改委、工信部、科技部、教育部等国家部委和北京、上海、广东、江苏、浙江等地方政府都推出了发展人工智能的鼓励政策。

态势喜人。据清华大学发布的《中国人工智能发展报告2018》统计，我国已成为全球人工智能投融资规模最大的国家，我国人工智能企业在人脸识别、语音识别、安防监控、智能音箱、智能家居等人工智能应用领域处于国际前列。根据2017年爱思唯尔文献数据库统计结果，我国在人工智能领域发表的论文数量已居世界第一。近两年，中国科学院大学、清华大学、北京大学等高校纷纷成立人工智能学院，2015年开始的中国人工智能大会已连续成功召开四届并且规模不断扩大。总体来说，我国人工智能领域的创新创业、教育科研活动非常活跃。

差距不小。目前我国在人工智能前沿理论创新方面总体上尚处于“跟跑”地位，大部分创新偏重于技术应用，在基础研究、原创成果、顶尖人才、技术生态、基础平台、标准规范等方面距离世界领先水平还存在明显差距。在全球人工智能人才700强中，中国虽然入选人数名列第二，但远远低于约占总量一半的美国。2018年市场研究顾问公司CompassIntelligence对全球100多家人工智能计算芯片企业进行了排名，我国没有一家企业进入前十。另外，我国人工智能开源社区和技术生态布局相对滞后，技术平台建设力度有待加强，国际影响力有待提高。我国参与制定人工智能国际标准的积极性和力度不够，国内标准制定和实施也较为滞后。我国对人工智能可能产生的社会影响还缺少深度分析，制定完善人工智能相关法律法规的进程需要加快。

前景看好。我国发展人工智能具有市场规模、应用场景、数据资源、人力资源、智能手机普及、资金投入、国家政策支持等多方面的综合优势，人工智能发展前景看好。全球顶尖管理咨询公司埃森哲于2017年发布的《人工智能：助力中国经济增长》报告显示，到2035年人工智能有望推动中国劳动生产率提高27%。我国发布的《新一代人工智能发展规划》提出，到2030年人工智能核心产业规模超过1万亿元，带动相关产业规模超过10万亿元。在我国未来的发展征程中，“智能红利”将有望弥补人口红利的不足。

当前是我国加强人工智能布局、收获人工智能红利、引领智能时代的重大历史机遇期，如何在人工智能蓬勃发展的浪潮中选择好中国路径、抢抓中国机遇、展现中国智慧等，需要深入思考。

树立理性务实的发展理念。任何事物的发展不可能一直处于高位，有高潮必有低谷，这是客观规律。实现机器在任意现实环境的自主智能和通用智能，仍然需要中长期理论和技术积累，并且人工智能对工业、交通、医疗等传统领域的渗透和融合是个长期过程，很难一蹴而就。因此，发展人工智能要充分考虑到人工智能技术的局限性，充分认识到人工智能重塑传统产业的长期性和艰巨性，理性分析人工智能发展需求，理性设定人工智能发展目标，理性选择人工智能发展路径，务实推进人工智能发展举措，只有这样才能确保人工智能健康可持续发展。

重视固本强基的原创研究。人工智能前沿基础理论是人工智能技术突破、行业革新、产业化推进的基石。面临发展的临界点，要想取得最终的话语权，必须在人工智能基础理论和前沿技术方面取得重大突破。我们要按照习近平总书记提出的支持科学家勇闯人工智能科技前沿“无人区”的要求，努力在人工智能发展方向和理论、方法、工具、系统等方面取得变革性、颠覆性突破，形成具有国际影响力的人工智能原创理论体系，为构建我国自主可控的人工智能技术创新生态提供领先跨越的理论支撑。

构建自主可控的创新生态。我国人工智能开源社区和技术创新生态布局相对滞后，技术平台建设力度有待加强。我们要以问题为导向，主攻关键核心技术，加快建立新一代人工智能关键共性技术体系，全面增强人工智能科技创新能力，确保人工智能关键核心技术牢牢掌握在自己手里。要着力防范人工智能时代“空心化”风险，系统布局并重点发展人工智能领域的“新核高基”：“新”指新型开放创新生态，如产学研融合等；“核”指核心关键技术与器件，如先进机器学习技术、鲁棒模式识别技术、低功耗智能计算芯片等；“高”指高端综合应用系统与平台，如机器学习软硬件平台、大型数据平台等；“基”指具有重大原创意义和技术带动性的基础理论与方法，如脑机接口、类脑智能等。同时，我们要重视人工智能技术标准的建设、产品性能与系统安全的测试。特别是我国在人工智能技术应用方面走在世界前列，在人工智能国际标准制定方面应当掌握话语权，并通过实施标准加速人工智能驱动经济社会转型升级的进程。

推动共担共享的全球治理。目前看，发达国家通过人工智能技术创新掌控了产业链上游资源，难以逾越的技术鸿沟和产业壁垒有可能进一步拉大发达国家和发展中国家的生产力发展水平差距。在发展中国家中，我国有望成为全球人工智能竞争中的领跑者，应布局构建开放共享、质优价廉、普惠全球的人工智能技术和应用平台，配合“一带一路”建设，让“智能红利”助推共建人类命运共同体。

作者：中央人民政府驻香港特别行政区联络办公室副主任、中国科学院院士

AI：人工智能的多模态融合模型的简介、发展以及未来趋势

人工智能的多模态融合模型的简介、发展以及未来趋势

多模态融合模型的简介

多模态融合模型的发展趋势

多模态常见应用分类

1、按照模态分类

2、按照功能分类

多模态模型案例

相关文章：Paper：《MultimodalMachineLearning:ASurveyandTaxonomy，多模态机器学习:综述与分类》翻译与解读

人工智能的多模态融合模型的简介、发展以及未来趋势多模态融合模型的简介

"模态"（Modality）是德国理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道，如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体（文字、图片、音频、视频）、环境等多个通道与计算机进行交流，充分模拟人与人之间的交互方式。每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。不同模态（例如图像、文本、音频）中学习的方式存在很大差异。为了让人工智能在理解我们周围的世界方面取得进展，它需要能够解释和推理关于多模态信息。多模态机器学习旨在建立能够处理和关联来自多种模态信息的模型。从早期的视听语音识别研究到最近对语言和视觉模型的兴趣激增，多模态机器学习是一个充满活力的多学科领域，其重要性日益增加，具有非凡的潜力。早期的深度学习算法专注于从一个单一的数据源训练其模型。例如，看—基于图像训练的CV模型和基于文本训练的NLP模型，听—基于声学模型的唤醒词检测、噪音消除的语音处理。早期的深度学习与单模态人工智能有关，其结果都被映射到一个单一的数据类型来源。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合，为计算器提供更接近于人类感知的场景。多模态学习成为当中的重要趋势，它可以被应用在归一、表示、转化、翻译、对齐、融合及协同学习上(representation/translation/alignment/fusion/co-learning)。按照下游任务则可以划分为理解式任务(视觉问答、视觉推理、图文检索等)和生成式任务(文本生成(对话/故事/诗歌)、图像生成文本、文字生成图像等)。

多模态融合模型的发展趋势

AndrewNg在年度总结时说道，虽然GPT-3和EfficientNet等单独针对文本及图像等任务的深度学习模型备受瞩目，但这一年中最令人印象深刻的还是，AI模型在发现文本与图像间关系中取得了进步。，2021年，OpenAI开启了多模态学习的重要一年，比如CLIP匹配图像和文本，Dall·E生成与输入文本对应的图像。DeepMind的PerceiverIO可以对文本、图像、视频和点云进行分类。斯坦福大学的ConVIRT为医用X射线图像添加了文本标签。现实中，图像和文本其实非常复杂，以至于在过去，研究人员只能全神贯注的着重其中之一。在这样做的过程中，他们开发了非常不同的技术。然而，在过去十年中，计算机视觉和自然语言处理已经融合到神经网络上，为合并这两种模式的统一模型打开了大门。 JeffDean在长文展望中总结到，一些最先进的多模态模型可以接受语言、图像、语言和视频等多种不同的输入模态，产生不同的输出模态。这是一个令人兴奋的方向，就像真实世界一样，有些东西在多模态数据中更容易学习。例如，阅读某些东西并观看图片，比仅仅阅读它更有用。图像和文本配对有助于多语种检索任务，并且更好地理解如何配对文本和图像输入可以提升图像描述任务。视觉和文本数据上的协同训练有助于提升视觉分类任务的准确率和稳健性，同时图像、视频和语音任务上的联合训练能够提升所有模态的泛化性能。目前还无法建立一个通用的“视觉机器”，无法做到统一模型同时满足不同场景要求。这意味着当下机器学习的训练成本较高，也没有达到产业化应用的理想状态。要解决这个问题，需要从端到端打通各个模态之间的关系，形成可以真正多维度交互的智能机器，让感知智能升级为认知智能。未来发展趋势，多场景下的多模态交互成为提升应用性能的重点。以多模态融合技术为核心的感知、交互和智慧协同能力，不断支撑各类终端和应用的智能化水平提升。人工智能正在从语音、文字、视觉等单模态智能，向着多种模态融合发展，结合分布式平台的计算能力，实现更高精度的场景构建，和对动态场景的处理能力。未百度研究院认为，下一步是跨模态统一建模，增强模型的跨模态语义对齐能力。JeffDean认为，所有这些趋势都指向了训练能力更强的通用性模型，这些模型可以处理多种数据模态并解决数千甚至数万个任务。在接下来的几年，我们将通过下一代架构Pathways来追求这一愿景，并期望在该领域看到实质性进展。

参考文章

TopAIStoriesof2021:TransformersTakeOver,ModelsBalloon,MultimodalAITakesOff,GovernmentsCrackDown-TheBatch|DeepLearning.AI

JeffDean长文展望：2021年之后，机器学习领域的五大潜力趋势

多模态常见应用分类1、按照模态分类

模态分类

子分类

Language-Audio

(1.1)、Text-to-SpeechSynthesis:给定文本生成对应的声音

(1.2)、AudioCaptioning：给定一段语音，生成一句话总结并描述主要内容。(不是语音识别)

Vision-Audio

(2.1)、Audio-VisualSpeechRecognition(视听语音识别)：给定某人的视频及语音进行语音识别。

(2.2)、VideoSoundSeparation(视频声源分离)：给定视频和声音信号(包含多个声源)，进行声源定位与分离。

(2.3)、ImageGenerationfromAudio:给定声音，生成与其相关的图像。

(2.4)、Speech-conditionedFacegeneration：给定一段话，生成说话人的视频。

(2.5)、Audio-Driven3DFacialAnimation：给定一段话与3D人脸模版，生成说话的人脸3D动画。

Vision-Language

(3.1)、Image/Video-TextRetrieval(图(视频)文检索):图像/视频文本的相互检索。

(3.2)、Image/VideoCaptioning(图像/视频描述)：给定一个图像/视频，生成文本描述其主要内容。

(3.3)、VisualQuestionAnswering(视觉问答)：给定一个图像/视频与一个问题，预测答案。

(3.4)、Image/VideoGenerationfromText：给定文本，生成相应的图像或视频。

(3.5)、MultimodalMachineTranslation：给定一种语言的文本与该文本对应的图像，翻译为另外一种语言。

(3.6)、Vision-and-LanguageNavigation(视觉-语言导航)：给定自然语言进行指导，使得智能体根据视觉传感器导航到特定的目标。

(3.7)、MultimodalDialog(多模态对话)：给定图像，历史对话，以及与图像相关的问题，预测该问题的回答。

2、按照功能分类

模态分类

子分类

定位相关

(1.1)、VisualGrounding：给定一个图像与一段文本，定位到文本所描述的物体。

(1.2)、TemporalLanguageLocalization:给定一个视频即一段文本，定位到文本所描述的动作(预测起止时间)。

(1.3)、VideoSummarizationfromtextquery：给定一段话(query)与一个视频，根据这段话的内容进行视频摘要，预测视频关键帧(或关键片段)组合为一个短的摘要视频。

(1.4)、VideoSegmentationfromNaturalLanguageQuery:给定一段话(query)与一个视频，分割得到query所指示的物体。

(1.5)、Video-LanguageInference:给定视频(包括视频的一些字幕信息)，还有一段文本假设(hypothesis)，判断二者是否存在语义蕴含(二分类)，即判断视频内容是否包含这段文本的语义。

(1.6)、ObjectTrackingfromNaturalLanguageQuery:给定一段视频和一些文本，进行定位匹配。

(1.7)、Language-guidedImage/VideoEditing:一句话自动修图。给定一段指令(文本)，自动进行图像/视频的编辑。

情感分析相关

AffectComputing(情感计算)：使用语音、视觉(人脸表情)、文本信息、心电、脑电等模态进行情感识别。

其它

MedicalImage：不同医疗图像模态如CT、MRI、PET

RGB-D模态：RGB图与深度图

参考文章：多模态学习综述及最新方向-知乎

多模态模型案例

时间

发明者

模型名称

功能

2021年1月

OpenAI

CLIP&DALL-E

功能：

DALL·E可以基于短文本提示（如一句话或一段文字）生成对应的图像。以文搜图，按照文字描述去生成对应图片。使用艺术家萨尔瓦多-达利和皮克斯的瓦力的谐音来命名。CLIP则可以基于文本提示对图片进行分类。但是，发布之后，有研究发现CLIP存在种族和性别偏见问题。

原理：在众多图像-文本对上，训练大规模自回归transformer可以通过文本prompt产生具有可控结果的高保真生成模型。

例如，当文本描述为"一个甜甜圈形状的时钟"被发送到该模型时，它就可以生成以下图像。

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人|在线可玩_量子位-CSDN博客

意义：

(1)、开启了2021年多模态学习的新篇章。

(2)、降低了深度学习需要的数据标注量。

(3)、CLIP的zero-shotlearning技术使得在各种数据集上的表现都很好（包括没见过的数据集）。

2021年5月

Google

MUM

功能：多任务统一模型

原理：通过从75种不同语言中挖掘出的上下文信息对用户搜索结果进行优先排序。

2021年9月

百度

DocVQA

功能：文档理解，跨模态文档理解模型ERNIE-Layout。

意义：登顶DocVQA榜首

2021年11月

NVIDIA

GauGAN2

功能：根据输入的文本/简笔画生成对应逼真的风景图、输入图像并编辑部分内容。

原理：它在一个单一的模型中结合了分割映射、修复和文本到图像的生成，使其成为一个强大的多模态工具。

意义：可以用文字和图画的混合来创造逼真的艺术。

Demo：AIDemos|NVIDIAResearch

2021年11月

Microsoft&北大

NÜWA女娲

功能：实现文本/草图转图像、图像补全、文字指示修改图像/视频、文字/草图转视频、视频预测等任务，功能异常强大。

意义：在8种包含图像和视频处理的下游视觉任务上具有出色的合成效果。

2021年12月

NVIDIA

PoEGAN

功能：文字描述、图像分割、草图、风格都可以转化为图片，它还可以同时接受以上几种输入模态的任意两种组合，这便是PoE的含义。

原理：生成器使用全局PoE-Net将不同类型输入的变化混合起来。鉴别器中，作者提出了一种多模态投影鉴别器，将投影鉴别器推广到处理多个条件输入。

意义：PoE可以在单模态输入、多模态输入甚至无输入时生成图片。当使用单个输入模态进行测试时，PoE-GAN的表现优于之前专门为该模态设计的SOTA方法。

2022年1月

百度

ERNIE-ViLG

功能：图文双向生成。

原理：它通过自回归算法将图像生成和文本生成统一建模，实现文图双向生成。

意义：文心ERNIE-ViLG参数规模达到100亿，是目前为止全球最大规模中文跨模态生成模型。刷新文本生成图像、图像描述等多个跨模态生成任务最好效果。

Demo：

文心大模型-产业级知识增强大模型

2022年1月

Facebook&Meta

AV-HuBERT

功能：这通过输入语音音频和唇语视频两种不同形式内容，输出对应文本。

原理：它是一个多模态的自监督学习算法，该模型通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息。AV-HuBERT可以捕捉到音频和视频间的微妙联系。这和人类本身感知语言的模式很相似。

意义：尤其是在嘈杂的环境下，通过读唇可以将语言识别的准确性最高提升6倍。

2022年1月

Facebook&Meta

data2vec

功能：应用于语音、图像和文本。

意义：在计算机视觉、语音任务上优于最佳单一用途算法，首个适用于多模态的高性能自监督算法，语音、图像文本全部SOTA。

嘈杂场景语音识别准确率怎么提？脸书：看嘴唇

人工智能的历史、现状和未来 人工智能语言模型的现状和问题研究报告怎么写