2023年中国人工智能基础层行业研究报告
核心摘要:
算力、算法、数据是人工智能产业发展的三大要素。基于此,艾瑞定义人工智能基础层是支撑AI应用模型开发及落地的必要资源,主要包括智能计算集群、智能模型敏捷开发工具、数据基础服务与治理平台三大模块。发展人工智能基础层可多环节提效AI技术价值的释放,解决需求方人工智能生产力稀缺问题,且依托AI基础层资源,AI企业可有效应对下游客户的长尾应用需求,将其高频应用转化为新主营业务,寻找业务增长突破点。此外,基础层工具属性标志着AI产业社会化分工的出现,AI产业正逐步进入各产业深度参与、双向共建的效率化生产阶段。据艾瑞测算,2020年人工智能基础层市场规模为497亿元,为AI产业总规模的33%,AI芯片的高增长是产业规模增长的主要拉动力。未来,伴随各行业智能化转型的迫切需求,艾瑞认为人工智能基础层的各模块工具有望走向集约型的生产模式,更多企业将自研开源框架,国产的操作系统与数据库等软件配套设施将稳步崛起,算力模块的智能服务器国产化率也将逐步提升。
人工智能基础层概念界定
人工智能基础层定义
支撑各类人工智能应用开发与运行的资源和平台
算力、算法、数据是人工智能产业发展的三大要素。据此,人工智能基础层主要包括智能计算集群、智能模型敏捷开发工具、数据基础服务与治理平台三个模块。智能计算集群提供支撑AI模型开发、训练或推理的算力资源,包括系统级AI芯片和异构智能计算服务器,以及下游的人工智能计算中心等;智能模型敏捷开发工具模块主要实现AI应用模型的生产,包括开源算法框架,提供语音、图像等AI技术能力调用的AI开放平台和AI应用模型效率化生产平台;数据基础服务与治理平台模块则实现AI应用所需的数据资源生产与治理,提供AI基础数据服务及面向AI的数据治理平台。AI基础层企业通过提供AI算力、开发工具或数据资源助力人工智能应用在各行业领域、各应用场景落地,支撑人工智能产业健康稳定发展。
人工智能基础层价值
AI基础层是支撑AI应用模型开发及落地的必要资源
开发一项人工智能模型并上线应用大致需经历从业务理解、数据采标及处理、模型训练与测试到运维监控等一系列流程。过程中需要大量的AI算力、高质量数据源、AI应用算法研发及AI技术人员的支持,但大部分中小企业用户并不具备在“算力、数据、算法”三维度从0到1部署的能力,而财力雄厚的大型企业亦需高性价比的AI开发部署方案。依靠AI基础层资源,需求企业可降低资源浪费情况、规避试错成本、提高部署应用速度。作为支撑AI模型开发及落地的必要资源,AI基础层可在多环节提效AI技术价值的释放;其工具属性也标志着AI产业社会化分工的出现,AI产业正逐步进入低技术门槛、低部署成本、各产业深度参与双向共建的效率化生产阶段。
人工智能基础层进阶之路
粗放式单点工具向集约型、精细化资源演进
智能化转型趋势下,企业部署AI项目的需求正经历着变化,对数据质量、模型生产周期、模型自学习水平、模型可解释性、云边端多样部署方式、人力成本及资金投入、投资回报率等的要求都逐步走高。在上述需求特点及自动机器学习、AI芯片硬件架构等技术发展的共同推动下,AI基础层资源的整体效能水平也在不断进化,以有效降低需求企业的AI开发成本。大致涵盖相互交融的三个阶段:雏形期,算法/算力/数据各模块多为粗放式的单点工具,新兴产品及赛道逐步出现;快速发展期,各赛道活跃度显著提升,参与者积极探索产品形态与商业模式,基础层服务体系逐步完善、资源价值凸显;最后则向成熟阶段过渡,各赛道内企业竞争加剧,逐步跑出头部企业。同时各赛道间企业生态合作增多,一站式工具平台出现。
人工智能基础层需求篇
基础层初步成型是AI产业链成熟的标志
基础层资源促进AI产业链各环节价值传导顺畅、分工明确
现阶段,已初步成型的AI基础层资源可有效缓解下游行业用户逐渐增长的、从感知到认知多类型的AI应用模型开发及部署需求。细看基础层内部,一方面,数据资源、算力资源和算法开发资源三者之间的分工更为明确和有序。数据基础服务及治理平台企业为AI产业链供应数据生产资料;智能计算集群产出高质效的生产力;智能模型敏捷开发工具则负责模型开发及模型训练等,输出AI技术服务能力,提高AI应用模型在各行业的渗透速率与价值空间。另一方面,基础层厂商的数量保持增长、厂商业务范围持续扩大,可提供专业定制化或一站式的基础资源服务。由此,基础层完成AI工业化生产准备,通过直接供应和间接供应的形式,将基础层资源传送到下游的AI应用需求端,产业链向顺畅的资源输送及价值传导方向演进。
AI基础层解决人工智能生产力稀缺问题
基础层资源缓解甲方在对待人工智能投资上的“矛盾”
根据艾瑞2020年执行的CTO调研,2019年超过51%的样本企业AI相关研发费用占总研发费用比重在10%以上,2020年65.9%的企业AI研发占比达到10%以上。一方面是甲方企业不断增长的对智能化转型的强劲需求,一方面则是在AI应用开发与部署过程中企业普遍面临的数据质量(49%)、技术人才(51%)等基础资源配置难点。且目前只有少数企业可以完成AI项目实施前设定的全部投资回报率(ROI)标准,因此甲方企业在投资AI项目时相对审慎。AI基础层资源则可有效缓解甲方利用AI技术重塑自身业务时的投资矛盾,提升模型生产效率,降低部署成本:数据资源集群具备数据采标与数据治理能力,且一站式的数据平台可对实时数据进行统一管理,提高数据利用率;高效的AI算力集群与调度系统可满足模型训练与推理需求,降低总拥有成本(TCO,TotalCostofOwnership);基于算法开发平台演化出的语音识别、计算机视觉、机器学习等专业的AI模型生产平台,可提供高效、一站式的AI模型生产服务。
人工智能基础层供给篇
人工智能基础层产业图谱
人工智能基础层市场规模
AI企业业务突破、智能化转型趋势等多因素驱动产业规模增长
AI企业突破业务增长瓶颈的需求是人工智能基础层发展的驱动力之一。当前人工智能核心产业规模保持线性增长态势,且增速趋于平稳与常态化。为寻求产值增长突破点,AI企业发力探索开拓市场的有效手段。依托人工智能基础层资源建设,AI企业可有效应对下游客户的长尾应用需求,再将高频应用转化为新主营业务。此外“新基建”、半导体自主可控等相关政策扶持、传统行业智能化转型等因素也都在助推人工智能基础层资源的发展。据艾瑞测算,2021-2025年,人工智能基础层市场规模CAGR为38%,整体产业规模发展速度较快、空间较为广阔,总体呈现持续增长的走势。2020年,中国人工智能基础层市场规模为497亿元,为人工智能产业总规模的33%,市场规模相较去年同比增长76%,AI应用模型效率化生产平台创收增长、AI芯片市场规模随着云端训练需求出现较高增长等是同比增速的主要拉动力;2021-2024年同比增速趋于平缓下降,市场开始恢复稳步增长态势。到2025年,中国人工智能基础层市场规模将达到2475亿元,云端推理与端侧推理芯片市场持续走高使得人工智能基础层整体市场同比增速稍有抬升。
算力:超算/数据中心的存量与增量判断
从算力需求与节能减排规定看存量替换与增量增长
现有的超算/数据中心以建设单位为标准,可分为两类:1)以国家或地方为建设单位的G端超算中心,服务对象主要为国家牵头的重点科研单位、高校研究院等,此类超算中心是解决国家安全、科学进步、经济发展与国防建设等重大挑战性问题的重要手段,近两年受国家与地方的高度重视与扶持,建设与升级超算中心的趋势愈加明朗。但由于数据网络安全与计算精度要求高,建设周期较长,此类超算中心的数量在中短期内增长缓慢,长期来看则会成为替换存量与增量增长的贡献主力之一。2)以智能云厂商或IDC服务商为建设供应主体的B端超算/数据中心,为互联网公司、其他类型的企业或事业单位提供主机托管、资源出租、增值或应用服务,是存量与增量市场变化主要推力。
从市场变化趋势来看:1)存量市场:日渐增加的AI计算负载需要处理力更强、能耗承受度更大的数据中心,同时,一系列有关控制数据中心PUE值的节能审查规定相继出台,一味盲目扩建、新建数据中心已难合时宜,促进老旧数据中心绿色化改造的减量替代方案因此诞生。微型、中小型数据中心会逐渐被改造为集约型的大型数据中心,符合节能减排相关标准、机柜数量与异构组合增多的集约型超算/数据中心将在存量市场中占据主流。2)增量市场:考虑到边缘计算可分担AI计算任务、兼具低延时优势,管理边缘计算中心则需要布局相应的大型云端数据中心,故增量市场会被异构的边缘计算数据中心与云端超算或大型数据中心扩充。
算力:云化AI算力
开放共享虚拟AI算力资源,实现AI模型海量训练与推理
AI是一种高资源消耗、强计算的技术,AI算力的强弱直接关联到AI模型训练的精度与实时推理的结果。若企业独立部署AI算力,不仅需要建设或租用机房这类重资产与网络宽带资源,还需要购置物理机、内存、硬盘等硬件设备,而且购置设备存在采购周期不确定、硬件资源过度铺张、专业管理团队缺乏等问题。所以,独立部署AI算力资源是一项耗时耗力的工作。将AI算力云化是一种高效能、低成本的有力解决方案。具备先天性业务优势的云服务商搭建数据中心,先将AI服务器算力资源虚拟化,开放给AI模型开发者,做到按需分配,如给短视频业务的开发者优先配备CPU+GPU方案,而后对算力资源的调度工作进行统一管理。由此,“物美价廉”的算力有序注入各行各业的AI模型中,减轻了井喷式数据爆发所带来的模型训练负担,并能及时根据用户使用情况弹性扩充或缩减虚拟算力资源空间,达到方便、灵活、降本增效的效果。
算力:端-边-云的算力协同
端-边-云实现AI算力泛在,加速AI模型训练与推理
在人工智能与5G等技术的冲击下,设备端产生大量实时数据,若直接上传到云端处理,会对云端的带宽、算力、存储空间等造成巨大压力,同时也存在延时长、数据传输安全性等问题。因此,为缓解云端的工作负载,云计算在云与端之间新增了若干个边缘计算节点,从而衍生出端-边-云的资源、数据与算力协同。在算力协同的业务模式下,靠近云端的云计算中心承担更多的模型训练任务,贴近端侧的各设备主要进行模型推理,而二者之间的边缘侧则负责通用模型的转移学习,帮助云端分散通用模型训练任务、处理实时计算的同时,也解决了终端算力不足、计算功耗大的难题。未来,边缘计算的发展会催生出更适宜边缘计算场景的算力集群异构设计,其异构化程度将会高于传统的数据中心,异构设计的突破将会进一步提高端-边-云的整体计算效能,进而加速AI模型的训练与推理。
算力:AI芯片市场规模
当前以训练需求为主,推理需求将成为未来市场主要增长动力
AI芯片是人工智能产业的关键硬件,也是AI加速服务器中用于AI训练与推理的核心计算硬件,被广泛应用于人工智能、云计算、数据中心、边缘计算、移动终端等领域。当前,我国的AI芯片行业仍处于起步期,市场空间有待探索与开拓。据艾瑞统计与预测,2020年我国AI芯片市场规模为197亿元,到2025年,我国AI芯片市场规模将达到1385亿元,2021-2025年的相关CAGR=47%,市场整体增速较快。从AI芯片的计算功能来看,一开始,因AI应用模型首先要在云端经过训练、调优与测试,计算的数据量与执行的任务量数以万计,故云端训练需求是AI芯片市场的主流需求。而在后期,训练好的AI应用模型转移到端侧,结合实时数据进行推理运算、释放AI功能,推理需求逐渐取代训练需求,带动推理芯片市场崛起。2025年,云端推理与端侧推理成为市场规模增长的主要拉动力,提升了逐渐下滑的AI芯片市场规模同比增速。
算法:智能模型敏捷开发工具商业价值分析
API规模经济+AI应用模型效率化生产平台的杠杆增效
智能模型敏捷开发工具的出现与驱动AI业务的外因以及企业自身的内因紧密相关。从外因看,规模化多场景的业务不断衍生出长尾需求,原有的应用需及时更新;从内因看,囿于开发企业有限的经营成本与AI技术人才,其资源主要投放到现阶段的主营业务,现有人员难以推动业务的智能化改造。对此,可有效解决AI应用模型设计与开发过程中通用或特有问题的智能模型敏捷开发工具逐步成为备选方案。AI开放平台与AI应用模型效率化生产平台作为其中的代表性工具,不仅能减少由0到1的开发成本,而且可降低人工智能市场的参与门槛,提升开发效果。AI开放平台属于API资源的一种,其可帮助技术领先企业开放AI能力与先进资源,从而延伸价值链,形成规模经济与长尾经济,利用开发者的创新应用来反哺开放平台。AI应用模型效率化生产平台可提供较为前沿的技术、经济合理的模型生产经验以及为实现敏捷开发而打包的数据、算力与算法资源。具体而言,其采用自动机器学习技术,很大程度上降低了机器学习的编程工作量、节约了AI开发时间、减轻了对专业数据科学家与算法工程师的依赖,让缺乏机器学习经验的开发者用上AI,加快开发效率。
算法:智能模型敏捷开发工具增长模型
API与定制方案共拓产业广度与深度,AI柔性生产贴近需求
在人工智能产业发展的过程中,智能模型敏捷开发工具可持续拓宽与深挖AI业务的广度和深度。从广度讲,AI开放平台形成平台效应,调用平台API的开发者聚集创新,针对不同业务场景的开发成果数量逐渐增多,提高了技术产品的利用率,打造出轻量化的输出模式、降低单位开发成本,并且构建出动态更新的服务池;与此同时,一站式AI应用模型效率化生产平台逐步填充因场景多元化而衍生出的长尾业务模型,丰富模型供应市场的种类与数量。从深度讲,二者均从业务前端发掘潜在或外显的市场需求,针对刚需应用与高价值环节延伸出多条增量建设与运行需求业务线,瞄准市场风口的同时,敏捷、经济地消化个性化或碎片化需求,根据需求柔性匹配生产。
算法:AI技术开放平台市场规模
产业受API经济带动,主要收入贡献来源为计算机视觉类
随着数据量与AI算力的提升,可落地的场景与算法的交互变得愈加频繁,二者结合开发出的AI应用模型就需要更大量地通过API调用AI技术开放平台的AI技术能力。据艾瑞统计与预测,2020年我国AI技术开放平台市场规模为225亿元,到2025年,相应规模可达到730亿元,2021-2025年的相关CAGR=26%。受API经济兴起的影响,2020年市场规模同比增速走高较快,2021年下滑后恢复平稳态势。按AI技术能力划分,计算机视觉类与语音技术类收入占比达72.2%,是收入的主要贡献来源。人脸识别、人体识别、OCR文字识别、图像识别等构成了计算机视觉类业务的主要技术能力,且计算机视觉类的技术价格相较于其他技术而言更高,应用领域也更为广泛。现阶段的市场集中度相对分散,未来,能持续投入成本、研发出强劲算法的厂商有望占领更多的市场份额,市场集中度亦会因此提升。
算法:AI应用模型效率化生产平台市场规模
集成式的模型开发工具包,产业恰逢伊始,前景有待开拓
AI应用模型效率化生产平台是全栈式的、可实现流水线开发的AI应用模型生产工具。假若每次开发模型都需要算法工程师单独完成从生产到上线的全流程搭建,就会导致很多时间的耗损与AI模型开发成本的浪费。集成了数据、算法与算力的相应开发工具的模型开发工具包——AI应用模型效率化生产平台应运而生。据艾瑞统计与预测,2020年我国AI应用模型效率化生产平台市场规模为23亿元;到2025年,相应规模可达到204亿元,2021-2025年的相关CAGR=49%。2020年,AI应用模型效率化生产平台相关业务拓展相对较快、产品恰逢创收伊始阶段,故同比增速增幅较快。与此同时,因参与技术门槛偏高,具备能力的厂商较少,市场尚未形成稳定状态,市场集中度偏高。
数据:人工智能数据基础服务定义
以AI训练与调优为目的提供的数据采集、标注与质检等服务
人工智能基础数据服务是指为各业务场景中的AI算法训练与调优而提供的数据库设计、数据采集、数据清洗、数据标注与数据质检服务。整个基础数据服务流程围绕着客户需求而展开,最终产出产品以数据集与数据资源定制服务为主,为AI模型训练提供可靠、可用的数据。数据采集、数据标注与数据质检是较为重要的三个环节。数据采集是数据挖掘的基础,提供多源的一手数据和二手数据;数据标注对数据进行归类与标记,为待标注数据增加标签,生产满足机器学习训练要求的机器可读数据编码。数据质检为数据的客观性和准确性设置检验标准,从而为AI算法的性能提供保障。AI基础数据服务商可着重在以上三个环节建立壁垒,以巩固行业地位。
数据:AI基础数据服务市场规模
行业规模稳步向前,图像、语音类内容继续向新兴场景开拓
高质量的数据是提高AI应用模型训练速度与精度的必要准备之一,而行之有效的AI基础数据服务又为提高数据质量奠定了坚实的基础。因而,提供通用化、精细化、场景化的AI基础数据服务才能满足日渐增长的AI应用模型训练需求。据艾瑞统计与预测,2020年我国AI基础数据服务市场规模(含数据采集与标注)为37亿元,到2025年,相应规模可达到107亿元,2021-2025年的相关CAGR=25%,整体增速呈现稳步提升的趋势。从市场细分收入结构来看,图像类与语音类收入占总收入规模的88.8%,是业务的主要构成部分;图像类与语音类收入基本持平,图像类业务以智能驾驶与安防为主,而语音类业务以中英大语种、中国本土方言以及外国小语种为主。目前,行业中也相应地分成了以图像类或语音类为主的供应商阵营,各类供应商将会继续立足于主营业务,深挖现有应用场景的业务细分需求,从而带动未来收入的增长。
数据:面向人工智能的数据治理定义
产生于业务,围绕于AI,追溯于治理
在大数据时代背景下,金融、零售、公安、工业等不同行业的业务场景衍生出诸多应用,多元的AI模型开发需求因此产生。AI模型开发的原材料是数据,但在挖掘模型数据时,往往面临模型与数据无法拉齐的问题,所以需要溯源到前置环节,从一开始就把数据治理的工作做好,面向AI的数据治理这一概念也就由此出现。面向AI的数据治理是指,以具体业务产生的AI模型开发与训练为目的,使用各个数据组件与人工智能技术,对数据进行针对性与持续性的诊治与管理。相比于传统的数据治理,其更新了数据接入、数据汇聚、数据分析的功能,并新增了AI模型开发与应用组件,以应对海量实时数据迸发、模型需及时对接数据等情形。面向AI的数据治理的特点在于,其对接企业现有的数据、积累新的AI数据而非重新进行AI数据的数据库建设,而且提供针对实时数据的处理办法、优先解决业务落地的困难,并持续挖掘具体业务的数据资产价值。
数据:面向AI业务的数据积累与治理模型
锚准方向,双轮驱动为智能化转型速度与质量赋能
在大数据应用的驱动下,具有相当数据规模的企业的多条业务条线往往会产生大量的结构化与非结构化数据,愈加需要企业内部的数据及时融通,但企业不可能完全抛弃现有的数据库系统、更换一套完全符合面向AI业务开发的数据治理系统;另一方面,智能化转型浪潮推动着企业的AI应用开发需求增长,但数据开发缺少统一标准、数据与业务场景割裂,让面向AI的数据治理的工作面临两难的局面。对此,艾瑞认为面向AI的数据治理并非完全舍弃已有的数据治理结构,而是在原有的基础上,进行数据治理结构的改造,让治理工作更多为AI开发服务,从而完成AI业务数据的积累。面向AI的数据治理工作完成后,才能驱动AI应用模型开发高效、高质运行,而模型开发反过来会为面向AI的数据治理工作提供指导。业务系统与数据系统像两个锚准工作方向的齿轮,共同滚动。符合业务场景需求的AI应用模型、MLKGNLP等AI技术加速促进两个齿轮的转动,使企业的业务系统运转效率向高质高效发展,为企业带来更可观的智能化转型业务发展速度与业务服务质量。
数据:面向AI的数据治理市场规模
存在数据中台带来的业务冲击,后期恢复稳步爬坡态势
在数字化转型与智能化转型的大趋势下,数据治理工作一般伴随着数据中台的搭建以及AI应用模型的开发而展开。数据治理属于数据中台的构成组件,数据治理的工作与服务则属于数据中台建设、运营与维护中不可缺少的环节。与此同时,以AI应用模型所需的数据标准去治理数据,结合AI技术提升数据的可用度与模型的训练效率,才能够更好更快地为人工智能业务前端服务,改善供应商的业务流程与消费者的消费体验。据艾瑞统计与预测,2020年我国面向AI的数据治理市场规模为14亿元,到2025年,相应规模可达到50亿元,2021-2025年的相关CAGR=28%。2018年,数据中台概念兴起,其规模在2020年处于爆发点,而数据治理作为数据中台的组件,也于同期迎来增长爆发点,从而带动面向AI的数据治理。2020年后,数据中台市场规模增速开始降温,数据治理也随之回落,面向AI的应用模型开发业务在该过程中的带动作用有限,故2021年的业务同比增速出现拐点。后期,面向AI的应用模型开发业务的带动效应逐步凸显,规模增速呈现稳步爬坡态势。
人工智能基础层发展洞察
一站式基础层资源平台
泛在需求下AI模型生产模式的变迁与资源集成
在人工智能由技术落地应用阶段向效率化生产阶段转变的背景下,艾瑞认为人工智能基础层的各模块工具有望走向集约型的生产模式。该模式主要能赋予开发企业以下价值:1)开发方式改进:从客户需求分析到解决方案部署形成独立的闭环,构建端到端的工作流。在强大算力的支持下,完成数据采集、数据标注、数据治理、数据应用、模型设计、参数调优、模型训练、模型测试、模型推理的全栈式流水线生产。2)管理效率提升:将数据、算法与算力委托给专业的服务商,实现一站式托管,打通三者之间的衔接壁垒,提高交互友好性,让开发者专注于业务。3)部署成本降低:集成数据、算法、算力的各个软件与硬件,企业可在一个平台内按需选择自己所缺失的模块组件并自由搭配,有效避免因采购不同供应商的产品或服务而带来的隐性成本损失与显性成本损失。
基础层全栈自主可控展望
自主可控稳步向前,内外兼修
信创产业涉及到核心技术问题,受到国家的大力扶持。比如,2020年12月,财政部、发改委、工信部等部门就联合发布了《关于促进集成电路产业和软件产业高质量发展企业所得税政策的公告》,文中明确指出:国家鼓励的集成电路线宽小于130纳米(含),且经营期在10年以上的集成电路生产企业或项目,第一年至第二年免征企业所得税,可见国家对国产芯片的重视。在信创产业稳步推广的的趋势下,人工智能基础层的各模块也在逐个突破“卡脖子”的关键点,朝着全栈国产化的方向迈进。算法模块相对其他两个模块而言,因开源框架协助,算法开发相对容易,但依然面临开源框架商用版限制的潜在风险,同时,使用开源框架难以友好对接到AI企业的业务逻辑,基于这两点,部分企业已开始自研开源框架并取得一定成效;数据模块的各类操作系统与应用软件在较大程度上仍以国外企业为主导,而国产的操作系统与数据库等软件配套设施正在稳步崛起,已存在相应的产品与服务可供客户选择;算力模块的智能服务器的国产化率逐步提升,AI芯片虽然仍以英伟达的GPU为主导,但国内部分企业开始自研AI芯片,产生了一批针对通用GPU、ASIC与FPGA的先行玩家。总的来说,基础层全栈的自主可控建设还处在萌芽阶段,未来将在“可用”的建设要求上打好根基,向“好用”的状态演变,并且从以政府政策引导为主的局面向以企业产品自由竞争的局面转变。
我了吗?
人工智能的历史、现状和未来
如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,人工智能正成为推动人类进入智能时代的决定性力量。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义,纷纷转型发展,抢滩布局人工智能创新生态。世界主要发达国家均把发展人工智能作为提升国家竞争力、维护国家安全的重大战略,力图在国际科技竞争中掌握主导权。习近平总书记在十九届中央政治局第九次集体学习时深刻指出,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。错失一个机遇,就有可能错过整整一个时代。新一轮科技革命与产业变革已曙光可见,在这场关乎前途命运的大赛场上,我们必须抢抓机遇、奋起直追、力争超越。
概念与历程
了解人工智能向何处去,首先要知道人工智能从何处来。1956年夏,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(ArtificialIntelligence,简称AI)”这一概念,标志着人工智能学科的诞生。
人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学,研究目的是促使智能机器会听(语音识别、机器翻译等)、会看(图像识别、文字识别等)、会说(语音合成、人机对话等)、会思考(人机对弈、定理证明等)、会学习(机器学习、知识表示等)、会行动(机器人、自动驾驶汽车等)。
人工智能充满未知的探索道路曲折起伏。如何描述人工智能自1956年以来60余年的发展历程,学术界可谓仁者见仁、智者见智。我们将人工智能的发展历程划分为以下6个阶段:
一是起步发展期:1956年—20世纪60年代初。人工智能概念提出后,相继取得了一批令人瞩目的研究成果,如机器定理证明、跳棋程序等,掀起人工智能发展的第一个高潮。
二是反思发展期:20世纪60年代—70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,人们开始尝试更具挑战性的任务,并提出了一些不切实际的研发目标。然而,接二连三的失败和预期目标的落空(例如,无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等),使人工智能的发展走入低谷。
三是应用发展期:20世纪70年代初—80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功,推动人工智能走入应用发展的新高潮。
四是低迷发展期:20世纪80年代中—90年代中。随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。
五是稳步发展期:20世纪90年代中—2010年。由于网络技术特别是互联网技术的发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。1997年国际商业机器公司(简称IBM)深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫,2008年IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。
六是蓬勃发展期:2011年至今。随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破,迎来爆发式增长的新高潮。
现状与影响
对于人工智能的发展现状,社会上存在一些“炒作”。比如说,认为人工智能系统的智能水平即将全面超越人类水平、30年内机器人将统治世界、人类将成为人工智能的奴隶,等等。这些有意无意的“炒作”和错误认识会给人工智能的发展带来不利影响。因此,制定人工智能发展的战略、方针和政策,首先要准确把握人工智能技术和产业发展的现状。
专用人工智能取得重要突破。从可应用性看,人工智能大体可分为专用人工智能和通用人工智能。面向特定任务(比如下围棋)的专用人工智能系统由于任务单一、需求明确、应用边界清晰、领域知识丰富、建模相对简单,形成了人工智能领域的单点突破,在局部智能水平的单项测试中可以超越人类智能。人工智能的近期进展主要集中在专用智能领域。例如,阿尔法狗(AlphaGo)在围棋比赛中战胜人类冠军,人工智能程序在大规模图像识别和人脸识别中达到了超越人类的水平,人工智能系统诊断皮肤癌达到专业医生水平。
通用人工智能尚处于起步阶段。人的大脑是一个通用的智能系统,能举一反三、融会贯通,可处理视觉、听觉、判断、推理、学习、思考、规划、设计等各类问题,可谓“一脑万用”。真正意义上完备的人工智能系统应该是一个通用的智能系统。目前,虽然专用人工智能领域已取得突破性进展,但是通用人工智能领域的研究与应用仍然任重而道远,人工智能总体发展水平仍处于起步阶段。当前的人工智能系统在信息感知、机器学习等“浅层智能”方面进步显著,但是在概念抽象和推理决策等“深层智能”方面的能力还很薄弱。总体上看,目前的人工智能系统可谓有智能没智慧、有智商没情商、会计算不会“算计”、有专才而无通才。因此,人工智能依旧存在明显的局限性,依然还有很多“不能”,与人类智慧还相差甚远。
人工智能创新创业如火如荼。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义,纷纷调整发展战略。比如,谷歌在其2017年年度开发者大会上明确提出发展战略从“移动优先”转向“人工智能优先”,微软2017财年年报首次将人工智能作为公司发展愿景。人工智能领域处于创新创业的前沿。麦肯锡公司报告指出,2016年全球人工智能研发投入超300亿美元并处于高速增长阶段;全球知名风投调研机构CBInsights报告显示,2017年全球新成立人工智能创业公司1100家,人工智能领域共获得投资152亿美元,同比增长141%。
创新生态布局成为人工智能产业发展的战略高地。信息技术和产业的发展史,就是新老信息产业巨头抢滩布局信息产业创新生态的更替史。例如,传统信息产业代表企业有微软、英特尔、IBM、甲骨文等,互联网和移动互联网时代信息产业代表企业有谷歌、苹果、脸书、亚马逊、阿里巴巴、腾讯、百度等。人工智能创新生态包括纵向的数据平台、开源算法、计算芯片、基础软件、图形处理器等技术生态系统和横向的智能制造、智能医疗、智能安防、智能零售、智能家居等商业和应用生态系统。目前智能科技时代的信息产业格局还没有形成垄断,因此全球科技产业巨头都在积极推动人工智能技术生态的研发布局,全力抢占人工智能相关产业的制高点。
人工智能的社会影响日益凸显。一方面,人工智能作为新一轮科技革命和产业变革的核心力量,正在推动传统产业升级换代,驱动“无人经济”快速发展,在智能交通、智能家居、智能医疗等民生领域产生积极正面影响。另一方面,个人信息和隐私保护、人工智能创作内容的知识产权、人工智能系统可能存在的歧视和偏见、无人驾驶系统的交通法规、脑机接口和人机共生的科技伦理等问题已经显现出来,需要抓紧提供解决方案。
趋势与展望
经过60多年的发展,人工智能在算法、算力(计算能力)和算料(数据)等“三算”方面取得了重要突破,正处于从“不能用”到“可以用”的技术拐点,但是距离“很好用”还有诸多瓶颈。那么在可以预见的未来,人工智能发展将会出现怎样的趋势与特征呢?
从专用智能向通用智能发展。如何实现从专用人工智能向通用人工智能的跨越式发展,既是下一代人工智能发展的必然趋势,也是研究与应用领域的重大挑战。2016年10月,美国国家科学技术委员会发布《国家人工智能研究与发展战略计划》,提出在美国的人工智能中长期发展策略中要着重研究通用人工智能。阿尔法狗系统开发团队创始人戴密斯·哈萨比斯提出朝着“创造解决世界上一切问题的通用人工智能”这一目标前进。微软在2017年成立了通用人工智能实验室,众多感知、学习、推理、自然语言理解等方面的科学家参与其中。
从人工智能向人机混合智能发展。借鉴脑科学和认知科学的研究成果是人工智能的一个重要研究方向。人机混合智能旨在将人的作用或认知模型引入到人工智能系统中,提升人工智能系统的性能,使人工智能成为人类智能的自然延伸和拓展,通过人机协同更加高效地解决复杂问题。在我国新一代人工智能规划和美国脑计划中,人机混合智能都是重要的研发方向。
从“人工+智能”向自主智能系统发展。当前人工智能领域的大量研究集中在深度学习,但是深度学习的局限是需要大量人工干预,比如人工设计深度神经网络模型、人工设定应用场景、人工采集和标注大量训练数据、用户需要人工适配智能系统等,非常费时费力。因此,科研人员开始关注减少人工干预的自主智能方法,提高机器智能对环境的自主学习能力。例如阿尔法狗系统的后续版本阿尔法元从零开始,通过自我对弈强化学习实现围棋、国际象棋、日本将棋的“通用棋类人工智能”。在人工智能系统的自动化设计方面,2017年谷歌提出的自动化学习系统(AutoML)试图通过自动创建机器学习系统降低人员成本。
人工智能将加速与其他学科领域交叉渗透。人工智能本身是一门综合性的前沿学科和高度交叉的复合型学科,研究范畴广泛而又异常复杂,其发展需要与计算机科学、数学、认知科学、神经科学和社会科学等学科深度融合。随着超分辨率光学成像、光遗传学调控、透明脑、体细胞克隆等技术的突破,脑与认知科学的发展开启了新时代,能够大规模、更精细解析智力的神经环路基础和机制,人工智能将进入生物启发的智能阶段,依赖于生物学、脑科学、生命科学和心理学等学科的发现,将机理变为可计算的模型,同时人工智能也会促进脑科学、认知科学、生命科学甚至化学、物理、天文学等传统科学的发展。
人工智能产业将蓬勃发展。随着人工智能技术的进一步成熟以及政府和产业界投入的日益增长,人工智能应用的云端化将不断加速,全球人工智能产业规模在未来10年将进入高速增长期。例如,2016年9月,咨询公司埃森哲发布报告指出,人工智能技术的应用将为经济发展注入新动力,可在现有基础上将劳动生产率提高40%;到2035年,美、日、英、德、法等12个发达国家的年均经济增长率可以翻一番。2018年麦肯锡公司的研究报告预测,到2030年,约70%的公司将采用至少一种形式的人工智能,人工智能新增经济规模将达到13万亿美元。
人工智能将推动人类进入普惠型智能社会。“人工智能+X”的创新模式将随着技术和产业的发展日趋成熟,对生产力和产业结构产生革命性影响,并推动人类进入普惠型智能社会。2017年国际数据公司IDC在《信息流引领人工智能新时代》白皮书中指出,未来5年人工智能将提升各行业运转效率。我国经济社会转型升级对人工智能有重大需求,在消费场景和行业应用的需求牵引下,需要打破人工智能的感知瓶颈、交互瓶颈和决策瓶颈,促进人工智能技术与社会各行各业的融合提升,建设若干标杆性的应用场景创新,实现低成本、高效益、广范围的普惠型智能社会。
人工智能领域的国际竞争将日益激烈。当前,人工智能领域的国际竞赛已经拉开帷幕,并且将日趋白热化。2018年4月,欧盟委员会计划2018—2020年在人工智能领域投资240亿美元;法国总统在2018年5月宣布《法国人工智能战略》,目的是迎接人工智能发展的新时代,使法国成为人工智能强国;2018年6月,日本《未来投资战略2018》重点推动物联网建设和人工智能的应用。世界军事强国也已逐步形成以加速发展智能化武器装备为核心的竞争态势,例如美国特朗普政府发布的首份《国防战略》报告即谋求通过人工智能等技术创新保持军事优势,确保美国打赢未来战争;俄罗斯2017年提出军工拥抱“智能化”,让导弹和无人机这样的“传统”兵器威力倍增。
人工智能的社会学将提上议程。为了确保人工智能的健康可持续发展,使其发展成果造福于民,需要从社会学的角度系统全面地研究人工智能对人类社会的影响,制定完善人工智能法律法规,规避可能的风险。2017年9月,联合国犯罪和司法研究所(UNICRI)决定在海牙成立第一个联合国人工智能和机器人中心,规范人工智能的发展。美国白宫多次组织人工智能领域法律法规问题的研讨会、咨询会。特斯拉等产业巨头牵头成立OpenAI等机构,旨在“以有利于整个人类的方式促进和发展友好的人工智能”。
态势与思考
当前,我国人工智能发展的总体态势良好。但是我们也要清醒看到,我国人工智能发展存在过热和泡沫化风险,特别在基础研究、技术体系、应用生态、创新人才、法律规范等方面仍然存在不少值得重视的问题。总体而言,我国人工智能发展现状可以用“高度重视,态势喜人,差距不小,前景看好”来概括。
高度重视。党中央、国务院高度重视并大力支持发展人工智能。习近平总书记在党的十九大、2018年两院院士大会、全国网络安全和信息化工作会议、十九届中央政治局第九次集体学习等场合多次强调要加快推进新一代人工智能的发展。2017年7月,国务院发布《新一代人工智能发展规划》,将新一代人工智能放在国家战略层面进行部署,描绘了面向2030年的我国人工智能发展路线图,旨在构筑人工智能先发优势,把握新一轮科技革命战略主动。国家发改委、工信部、科技部、教育部等国家部委和北京、上海、广东、江苏、浙江等地方政府都推出了发展人工智能的鼓励政策。
态势喜人。据清华大学发布的《中国人工智能发展报告2018》统计,我国已成为全球人工智能投融资规模最大的国家,我国人工智能企业在人脸识别、语音识别、安防监控、智能音箱、智能家居等人工智能应用领域处于国际前列。根据2017年爱思唯尔文献数据库统计结果,我国在人工智能领域发表的论文数量已居世界第一。近两年,中国科学院大学、清华大学、北京大学等高校纷纷成立人工智能学院,2015年开始的中国人工智能大会已连续成功召开四届并且规模不断扩大。总体来说,我国人工智能领域的创新创业、教育科研活动非常活跃。
差距不小。目前我国在人工智能前沿理论创新方面总体上尚处于“跟跑”地位,大部分创新偏重于技术应用,在基础研究、原创成果、顶尖人才、技术生态、基础平台、标准规范等方面距离世界领先水平还存在明显差距。在全球人工智能人才700强中,中国虽然入选人数名列第二,但远远低于约占总量一半的美国。2018年市场研究顾问公司CompassIntelligence对全球100多家人工智能计算芯片企业进行了排名,我国没有一家企业进入前十。另外,我国人工智能开源社区和技术生态布局相对滞后,技术平台建设力度有待加强,国际影响力有待提高。我国参与制定人工智能国际标准的积极性和力度不够,国内标准制定和实施也较为滞后。我国对人工智能可能产生的社会影响还缺少深度分析,制定完善人工智能相关法律法规的进程需要加快。
前景看好。我国发展人工智能具有市场规模、应用场景、数据资源、人力资源、智能手机普及、资金投入、国家政策支持等多方面的综合优势,人工智能发展前景看好。全球顶尖管理咨询公司埃森哲于2017年发布的《人工智能:助力中国经济增长》报告显示,到2035年人工智能有望推动中国劳动生产率提高27%。我国发布的《新一代人工智能发展规划》提出,到2030年人工智能核心产业规模超过1万亿元,带动相关产业规模超过10万亿元。在我国未来的发展征程中,“智能红利”将有望弥补人口红利的不足。
当前是我国加强人工智能布局、收获人工智能红利、引领智能时代的重大历史机遇期,如何在人工智能蓬勃发展的浪潮中选择好中国路径、抢抓中国机遇、展现中国智慧等,需要深入思考。
树立理性务实的发展理念。任何事物的发展不可能一直处于高位,有高潮必有低谷,这是客观规律。实现机器在任意现实环境的自主智能和通用智能,仍然需要中长期理论和技术积累,并且人工智能对工业、交通、医疗等传统领域的渗透和融合是个长期过程,很难一蹴而就。因此,发展人工智能要充分考虑到人工智能技术的局限性,充分认识到人工智能重塑传统产业的长期性和艰巨性,理性分析人工智能发展需求,理性设定人工智能发展目标,理性选择人工智能发展路径,务实推进人工智能发展举措,只有这样才能确保人工智能健康可持续发展。
重视固本强基的原创研究。人工智能前沿基础理论是人工智能技术突破、行业革新、产业化推进的基石。面临发展的临界点,要想取得最终的话语权,必须在人工智能基础理论和前沿技术方面取得重大突破。我们要按照习近平总书记提出的支持科学家勇闯人工智能科技前沿“无人区”的要求,努力在人工智能发展方向和理论、方法、工具、系统等方面取得变革性、颠覆性突破,形成具有国际影响力的人工智能原创理论体系,为构建我国自主可控的人工智能技术创新生态提供领先跨越的理论支撑。
构建自主可控的创新生态。我国人工智能开源社区和技术创新生态布局相对滞后,技术平台建设力度有待加强。我们要以问题为导向,主攻关键核心技术,加快建立新一代人工智能关键共性技术体系,全面增强人工智能科技创新能力,确保人工智能关键核心技术牢牢掌握在自己手里。要着力防范人工智能时代“空心化”风险,系统布局并重点发展人工智能领域的“新核高基”:“新”指新型开放创新生态,如产学研融合等;“核”指核心关键技术与器件,如先进机器学习技术、鲁棒模式识别技术、低功耗智能计算芯片等;“高”指高端综合应用系统与平台,如机器学习软硬件平台、大型数据平台等;“基”指具有重大原创意义和技术带动性的基础理论与方法,如脑机接口、类脑智能等。同时,我们要重视人工智能技术标准的建设、产品性能与系统安全的测试。特别是我国在人工智能技术应用方面走在世界前列,在人工智能国际标准制定方面应当掌握话语权,并通过实施标准加速人工智能驱动经济社会转型升级的进程。
推动共担共享的全球治理。目前看,发达国家通过人工智能技术创新掌控了产业链上游资源,难以逾越的技术鸿沟和产业壁垒有可能进一步拉大发达国家和发展中国家的生产力发展水平差距。在发展中国家中,我国有望成为全球人工智能竞争中的领跑者,应布局构建开放共享、质优价廉、普惠全球的人工智能技术和应用平台,配合“一带一路”建设,让“智能红利”助推共建人类命运共同体。
(作者:中央人民政府驻香港特别行政区联络办公室副主任、中国科学院院士)
人工智能导论——人工智能学科研究的基本内容及主要研究领域
一、人工智能研究的基本内容
(1)知识表示
人工智能研究的目的是要建立一个能模拟人类智能行为的系统,但知识是一切智能行为的基础,因此首先要研究知识表示方法。只有这样才能把只是存储到计算机中去,供求解现实问题使用。知识表示方法可分为两类:符号表示法(用各种包含具体含义的符号以各种不同的方式和顺序组合起来表示知识的方法)和连接机制表示法(用神经网络表示知识)。
(2)机器感知
所谓机器感知就是使机器(计算机)具有类似于人的感知能力,其中以机器视觉和机器听觉为主。机器感知是机器获取外部信息的基本途径。
(3)机器思维
所谓机器思维是指通过感知得来的外部信息及机器内部的各种工作信息进行有目的的处理。
(4)机器学习
机器学习就是研究如何使计算机具有类似于人的学习能力,使它能通过学习自动的获取知识。
(5)机器行为
机器行为主要是指计算机的表达能力,即“说”、“写”、“画”等能力。对于智能机器人,它还应具有人的四肢功能,即能走路、能取物、能操作等。
二、人工智能的主要研究领域
目前,随着智能科学和技术的发展和计算机网络技术的广泛应用,人工智能技术应用到越来越多的领域。下面简要介绍几个主要领域:
(1)自动定理证明
自动定理证明是人工智能中最先进行研究并得到成功应用的一个研究领域,同时它也为人工智能的发展起到了重要的推动作用。实际上,除了数学定理证明以外,医疗诊断、信息检索、问题求解等许多非数学领域问题,都可以转化为定理证明问题。
(2)博弈
诸如下棋、打牌、战争等一类竞争性的智能活动称为博弈(gameplaying)。人工智能研究博弈的目的并不是为了让计算机与人进行下棋、打牌之类的游戏,而是通过对博弈的研究来检验某些人工智能技术是否能实现对人类智慧的模拟,促进人工智能技术的深入研究。
(3)模式识别
模式识别(patternrecognition)是一门研究对象描述和分类方法的学科。分析和识别的模式可以是信号、图象或者普通数据。模式是对一个物体或者某些其他感兴趣实体定量的或者结构的描述,而模式类是指具有某些共同属性的模式集合。
模式识别方法有统计模式识别、结构模式识别、模糊模式识别、神经网络模式识别等。
(4)机器视觉
机器视觉(machinevision)或者计算机视觉(computervision)是用机器代替人眼进行测量和判断,是模式识别研究的一个重要方面。计算机视觉通常分为低层视觉和高层视觉两类。
(5)自然语言理解
自然语言理解(naturallanguageunderstanding)就是研究如何让计算机理解人类自然语言,是人工智能中十分重要的一个研究领域。它是研究能够实现人与计算机之间用自然语言进行通讯的理论与方法。
(6)智能信息检索
数据库系统是存储大量信息的计算机系统。随着计算机应用的发展,存储的信息量越来越大,研究智能信息检索系统具有重要的理论意义和实际应用价值。智能信息检索系统应具有下述功能:能理解自然语言、具有推理能力、系统拥有一定的常识性知识。
(7)数据挖掘与知识发现
知识发现系统通过各种学习方法,自动处理数据库中大量的原始数据,提炼出具有必然性的、有有意义的知识,从而揭示出蕴涵在这些数据背后的内在联系和本质规律,实现知识的自动获取。知识发现是从数据库中发现知识的全过程,而数据挖掘则是这个全过程的一个特定的、关键的步骤,数据挖掘的目的是从数据库中找出有意义的模式。
(8)专家系统
专家系统是一个智能的计算机程序,运用知识和推理步骤来解决只有专家才能解决的疑难问题,是目前人工智能最活跃、最有成效的一个研究领域。可以这样定义,专家系统是一种具有特定领域内大量知识和经验的程序系统,它应用人工智能技术模拟人类专家求解问题的思维过程求解领域内的各种问题,其水平可以达到甚至超过人类专家的水平。
(9)自动程序设计
自动程序设计是将自然语言描述的程序自动转换可执行程序的技术,包括程序综合和程序正确性验证两个方面的内容。
(10)机器人
机器人是指可模拟人类行为的机器。它可分为三代:程序控制机器人(第一代)、自适应机器人(第二代)、智能机器人(第三代)。
(11)组合优化问题
组合优化问题一般是NP完全问题。NP完全问题是指:用目前知道的最好的方法求解,问题求解需要花费的时间(称为问题求解的复杂性)是随问题规模增大以指数关系增长。组合优化问题的求解方法已经应用于生产计划与调度、通信路由调度、交通运输调度等。
(12)人工神经网络
人工神经网络是一个用大量简单处理但愿经广泛连接而组成的人工网络,用来模拟大脑神经系统的结构与功能。
(13)分布式人工智能与多智能体
分布式人工智能(DAI)是分布式计算与人工智能结合的结果。分布式人工智能的研究目标是要建立一种描述自然系统和社会系统的模型。
(14)智能控制
智能控制就是把人工智能技术引入控制领域,建立智能控制系统。
(15)智能仿真
智能仿真就是将人工智能技术引入仿真领域,建立智能仿真系统。
(16)智能CAD
智能CAD就是将人工智能技术引入计算机辅助设计领域,建立智能CAD系统。
(17)智能CAI
智能CAI就是将人工智能技术引入计算机辅助教学领域,简历智能CAI系统即ICAI。
(18)智能管理与智能决策
智能管理就是将人工智能技术引入管理领域,建立智能管理系统,研究如何提高计算机管理系统的智能水平,以及智能管理系统的设计理论、方法和实现方法。智能决策就是将人工智能技术引入决策过程,建立智能决策支持系统。
(19)智能多媒体系统
智能多媒体实际上是人工智能与多媒体技术的有机结合。
(20)智能操作系统
智能操作系统就是将人工智能技术引入计算机的操作系统之中,从质上提高操作系统的性能和效率。
(21)智能计算机系统
智能计算机系统就是人们正在研制的新一代计算机系统,它将全面支持智能应用开发,且自身就具有智能。
(22)智能通信
智能通信就是将人工智能技术引入通信领域,建立智能通信系统,在通信系统的各个层次和环节上实现智能化。
(23)智能网络系统
智能网络系统就是将人工智能技术引入计算机网络系统。
(24)人工生命
人工生命是以计算机为研究工具,模拟自然界的生命现象,生成表现自然生命系统行为特点的仿真系统。
----内容来自于《人工智能导论(第四版)》