博舍

人工智能产业发展现状与四大趋势 ai人工智能的发展与趋势

人工智能产业发展现状与四大趋势

随着全球新一轮科技革命和产业变革孕育兴起,人工智能等数字技术加速演进,引领数字经济蓬勃发展,对各国科技、经济、社会等产生深远影响,已成为驱动新一轮科技革命和产业变革的重要力量。近年来,各国政府及相关组织持续加强人工智能战略布局,以人工智能为核心的集成化技术创新成为重点,人工智能相关技术产业化和商业化进程不断提速,正在加快与千行百业深度融合,其“头雁”效应得以充分发挥。此外,全球高度关注人工智能治理工作,发展安全可信人工智能已成为全球共识。

一人工智能的内涵与产业链

(一)人工智能的内涵

人工智能(ArtificialIntelligence)作为一门前沿交叉学科,与数学、计算机科学、控制科学、脑与认知科学、语言学等密切相关,自1956年首次提出以来,各方对其界定一直存在不同的观点。通过梳理不同研究机构和专家学者提出的相关概念,关于“人工智能”的内涵可总结如下:人工智能是指研究、模拟人类智能的理论、方法、技术及应用系统的一门技术科学,赋予机器模拟、延伸、扩展类人智能,实现会听、会看、会说、会思考、会学习、会行动等功能,本质是对人的意识和思想过程的模拟。

图1:人工智能内涵示意图

来源:火石创造根据公开资料绘制

(二)人工智能的发展历程

从1956年“人工智能”概念在达特茅斯会议上首次被提出至今,人工智能发展已经历经60余年,经历了三次发展浪潮。当前全球人工智能正处于第三次发展浪潮之中。

第一次浪潮(1956-1980年):训练机器逻辑推理能力。在1956年达特茅斯会议上,以“人工智能”概念被提出为标志,第一次发展浪潮正式掀起,该阶段的核心是:让计算机具备逻辑推理能力。这一时期内,开发出了计算机可以解决代数应用题、证明几何定理、学习和使用英语的程序,并且研发出第一款感知神经网络软件和聊天软件,这些初期的突破性进展让人工智能迎来发展史上的第一个高峰。但与此同时,受限于当时计算机的内存容量和处理速度,早期的人工智能大多是通过固定指令来执行特定问题,并不具备真正的学习能力。

第二次浪潮(1980-2006年):专家系统应用推广。1980年,以“专家系统”商业化兴起为标志,第二次发展浪潮正式掀起,该阶段的核心是:总结知识,并“教授”给计算机。这一时期内,解决特定领域问题的“专家系统”AI程序开始为全世界的公司所采纳,弥补了第一次发展浪潮中“早起人工智能大多是通过固定指令来执行特定问题”,使得AI变得实用起来,知识库系统和知识工程成为了80年代AI研究的主要方向,应用领域不断拓宽。

第三次浪潮(2006年至今):机器学习、深度学习、类脑计算提出。以2006年Hinton提出“深度学习”神经网络为标志,第三次发展浪潮正式掀起,该阶段的核心是实现从“不能用、不好用”到“可以用”的技术突破。与此前多次起落不同,第三次浪潮解决了人工智能的基础理论问题,受到互联网、云计算、5G通信、大数据等新兴技术不断崛起的影响,以及核心算法的突破、计算能力的提高和海量数据的支撑,人工智能领域的发展跨越了从科学理论与实际应用之间的“技术鸿沟”,迎来爆发式增长的新高潮。

图2:人工智能的三次发展浪潮

来源:火石创造根据公开资料绘制

(三)人工智能的产业链

人工智能产业链分为三层:基础层、技术层以及应用层。基础层涉及数据收集与运算,这是人工智能的发展基础,包括智能芯片、智能传感器、大数据与云计算等;技术层处理数据的挖掘、学习与智能处理,是连接基础层与应用层的桥梁,包括机器学习、类脑智能计算、计算机视觉、自然语言处理、智能语音、生物特征识别等;应用层是将人工智能技术与行业的融合发展的应用场景,包括智能机器人、智能终端、智慧城市、智能交通、智能制造、智能医疗、智能教育等。

图3:人工智能产业链

来源:火石创造根据公开资料绘制

二全球人工智能产业发展现状

(一)人工智能产业规模保持快速增长

近年来人工智能技术飞速发展,对人类社会的经济发展以及生产生活方式的变革产生重大影响。人工智能正全方位商业化,AI技术已在金融、医疗、制造、教育、安防等多个领域实现技术落地,应用场景也日益丰富。人工智能的广泛应用及商业化,加快推动了企业的数字化、产业链结构的优化以及信息利用效率的提升。全球范围内美国、欧盟、英国、日本、中国等国家和地区均大力支持人工智能产业发展,相关新兴应用不断落地。根据相关统计显示,全球人工智能产业规模已从2017年的6900亿美元增长至2021年的3万亿美元,并有望到2025年突破6万亿美元,2017-2025年有望以超30%的复合增长率快速增长。

图4:2017-2025年全球人工智能产业规模(单位:亿美元)

数据来源:火石创造根据公开资料整理

(二)全球主要经济体争相布局,中美两国占据领先位置

人工智能作为引领未来的战略性技术,目前全球主要经济体都将人工智能作为提升国家竞争力、维护国家安全的重大战略。美国处于全球人工智能领导者地位,中国紧随其后,欧洲的英国、德国、法国,亚洲的日本、韩国,北美的加拿大等国也具有较好的基础。从全球各国人工智能企业数量来看,美国人工智能企业数量在全球占比达到41%,中国占比为22%,英国为11%,以上三个国家的人工智能企业数量合计占到全球的七成以上。

图5:全球人工智能企业数量分布

数据来源:中国信通院,火石创造整理

(三)公共数据集不断丰富,关键平台逐步形成

全球数据流量持续快速增长,为深度学习所需要的海量数据提供良好基础。商业化数据产业发展迅速,为企业提供海量图片、语音等数据资源和相关服务。公共数据集为创新创业和行业竞争提供优质数据,也为初创企业的发展带来必不可少的资源。优势企业例如Google、亚马逊、Facebook等都加快部署机器学习、深度学习底层平台,建立产业事实标准。目前业内已有近40个各类AI学习框架,生态竞争十分激烈。中国的代表企业如科大讯飞、商汤科技利用技术优势建设开放技术平台,为开发者提供AI开发环境,建设上层应用生态。

(四)人工智能技术飞速发展,应用持续深入

近十年来,得益于深度学习等算法的突破、算力的不断提升以及海量数据的持续积累,人工智能真正大范围地从实验室研究走向产业实践。以深度学习为代表的算法爆发拉开了人工智能浪潮的序幕,在计算机视觉、智能语音、自然语言处理等领域广泛应用,相继超过人类识别水平。人工智能与云计算、大数据等支撑技术的融合不断深入,围绕着数据处理、模型训练、部署运营和安全监测等各环节的工具链不断丰富。工程化能力持续增强,人工智能的落地应用和产品交付更加便捷高效。AI在医疗、制造、自动驾驶、安防、消杀等领域的应用持续深入,特别是新冠疫情以来,社会的数字化、智能化转型不断提速,进一步推动人工智能应用迈入快车道。

三全球人工智能产业发展趋势

(一)算法、算力和数据作为人工智能产业的底层支撑,仍是全球新一代人工智能产业的核心引擎

算法、算力和数据被全球公认为是人工智能发展的三驾马车,也是推动人工智能发展的重要基础。在算力层面,单点算力持续提升,算力定制化、多元化成为重要发展趋势;计算技术围绕数据处理、数据存储、数据交互三大能力要素演进升级,类脑芯片、量子计算等方向持续探索智能芯片的技术架构由通用类芯片发展为全定制化芯片,技术创新带来的蓝海市场吸引了大量的巨头企业和初创企业进入产业。在算法层面,Cafe框架?CNTK框架等分别针对不同新兴人工智能算法模型进行收集整合,可以大幅度提高算法开发的场景适用性,人工智能算法从RNN、LSTM到CNN过渡到GAN和BERT还有GPT-3等,不断涌现的新兴学习算法将在主流机器学习算法模型库中得到更高效的实现。在数据层面,以深度学习为代表的人工智能技术需要大量的标注数据,催生了专业的技术服务,数据服务进入深度定制化阶段。

(二)全球新兴技术持续孕育涌现,以人工智能为核心的集成化技术创新成为重点

随着全球虚拟现实、超高清视频、新兴汽车电子等新技术、新产品将不断孕育涌现,并与人工智能加速交叉集成,推动生产生活方式和社会治理方式智能化变革的经济形态;与此同时,人工智能与5G、云计算、大数据、工业互联网、物联网、混合现实(MR)、量子计算、区块链、边缘计算等新一代信息技术互为支撑。这意味着以交叉融合为特征的集成化创新渐成主流,多种新兴技术交叉集成的价值将使人工智能发挥更大社会经济价值。例如:人工智能与汽车电子领域加速融合,实现感知、决策、控制等专用功能模块,推动形成自动驾驶、驾驶辅助、人车交互、服务娱乐应用系统;人工智能与虚拟现实技术相结合,为生产制造、家装等提供工具,并为虚拟制造、智能驾驶、模拟医疗、教育培训、影视娱乐等提供场景丰富、互动及时的平台环境等。

(三)新基建春风与场景赋能双轮驱动,全球泛在智能时代加速来临

在新冠肺炎疫情成为全球发展“新常态”背景下,全球主要经济体均面临经济社会创新发展和转型升级挑战,对人工智能的运用需求愈加迫切,纷纷推动人工智能与实体经济加速融合,助力实现新常态下产业转型升级。一方面,全球大力布局智能化基础设施建设和传统基础设施智能化升级,推动网络泛在、数据泛在和应用需求泛在的万物互联生态加速实现,为人工智能的应用场景向更多行业、更多领域、更多环节、更多层面拓展奠定基础;另一方面,AI应用场景建设成为国内外关注和紧抓的关键举措,面向医疗健康、金融、供应链交通、制造、家居、轨道交通等重点应用领域,积极构建符合本地优势和发展特点的人工智能深度应用场景,探索智能制造、智能物流、智能农业、智慧旅游、智能医疗、智慧城市等模式创新和业态创新,同时典型场景建设也吸引了全球资本市场的重点关注,泛在化智能经济发展时代即将到来。

(四)全球高度关注人工智能治理工作,发展安全可信人工智能已成为全球共识

随着全球人工智能发展步入蓬勃发展阶段,人工智能深入赋能引发的挑战与风险广受关注,并在全球范围内掀起了人工治理浪潮。2019年6月,二十国集团(G20)批准了倡导人工智能使用和研发“尊重法律原则、人权和民主价值观”的《G20人工智能原则》,成为人工智能治理方面的首个政府间国际公约,发展安全可信的人工智能已经成为全球共识。此后,全球各国纷纷加速完善人工智能治理相关规则体系,聚焦自动驾驶、智慧医疗和人脸识别等重点领域出台分级分类的监管措施,推动人工治理从以“软法”为导向的社会规范体系,向以“硬法”为保障的风险防控制度体系转变。与此同时,面向人工智能治理体系建设和打造安全可信生态的相关需求,围绕着安全性、稳定性、可解释性、隐私保护、公平性等方面的可信人工智能研究持续升温,其理念逐步贯彻到人工智能的全生命周期之中,基于模糊理论的相关测试技术、AI结合隐私计算技术、引入公平决策量化指标的算法模型等新技术陆续涌现,产业实践不断丰富,已经演变为落实人工智能治理相关要求的重要方法论。

       原文标题 : 全球视野下人工智能产业发展现状与四大趋势

大数据:发展现状与未来趋势

中国特色社会主义进入新时代,实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略,吹响了加快发展数字经济、建设数字中国的号角。习近平总书记在十九届中共中央政治局第二次集体学习时的重要讲话中指出:“大数据是信息化发展的新阶段”,并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署,为我国构筑大数据时代国家综合竞争新优势指明了方向!

今天,我拟回顾大数据的发端、发展和现状,研判大数据的未来趋势,简述我国大数据发展的态势,并汇报我对信息化新阶段和数字经济的认识,以及对我国发展大数据的若干思考和建议。

一、大数据的发端与发展

从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,直到以电子计算机为代表的现代信息技术出现后,为数据处理提供了自动的方法和手段,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。

“大数据”作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰·马西(John Mashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“Big Data(大数据)”来描述这一挑战,在计算领域引发思考。2007年,数据库领域的先驱人物吉姆·格雷(Jim Gray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。2012年,牛津大学教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schnberger)在其畅销著作《大数据时代(Big Data: A Revolution That Will Transform How We Live,Work,and Think)》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。

大数据于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善,其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。

大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。就理论上而言,在足够小的时间和空间尺度上,对现实世界数字化,可以构造一个现实世界的数字虚拟映像,这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下,对这个数字虚拟映像的深度分析,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。

二、大数据的现状与趋势

全球范围内,研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。

一是已有众多成功的大数据应用,但就其效果和深度而言,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。

按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。第一层,描述性分析应用,是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%。第三层,指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。

当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。然而,随着研究应用的不断深入,人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此,虽然应用层次最深的决策指导性应用,当前已在人机博弈等非关键性领域取得较好应用效果,但是,在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密关联的领域,要真正获得有效应用,仍面临一系列待解决的重大基础理论和核心技术挑战。在此之前,人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着,虽然已有很多成功的大数据应用案例,但还远未达到我们的预期,大数据应用仍处于初级阶段。未来,随着应用领域的拓展、技术的提升、数据共享开放机制的完善,以及产业生态的成熟,具有更大潜在价值的预测性和指导性应用将是发展的重点。

二是大数据治理体系远未形成,特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾,成为制约大数据发展的重要短板,各界已经意识到构建大数据治理体系的重要意义,相关的研究与实践将持续加强。

随着大数据作为战略资源的地位日益凸显,人们越来越强烈地意识到制约大数据发展最大的短板之一就是:数据治理体系远未形成,如数据资产地位的确立尚未达成共识,数据的确权、流通和管控面临多重挑战;数据壁垒广泛存在,阻碍了数据的共享和开放;法律法规发展滞后,导致大数据应用存在安全与隐私风险;等等。如此种种因素,制约了数据资源中所蕴含价值的挖掘与转化。

其中,隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面,数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展,主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言,往往靠自身的积累难以聚集足够的高质量数据。另外,大数据应用的威力,在很多情况下源于对多源数据的综合融合和深度分析,从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息,因此,只有通过共享开放和数据跨域流通才能建立信息完整的数据集。

然而,另一方面,数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(General Data Protection Regulation,GDPR),并于2018年5月25日正式生效。《条例》生效后,Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款,并被推上舆论的风口浪尖。2020年1月1日,被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。CCPA规定了新的消费者权利,旨在加强消费者隐私权和数据安全保护,涉及企业收集的个人信息的访问、删除和共享,企业负有保护个人信息的责任,消费者控制并拥有其个人信息,这是美国目前最具典型意义的州隐私立法,提高了美国保护隐私的标准。在这种情况下,过去利用互联网平台中心化搜集用户数据,实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。

我国在个人信息保护方面也开展了较长时间的工作,针对互联网环境下的个人信息保护,制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。特别是2016年11月7日,全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求,并规定了个人对其个人信息进行更正或删除的权利。2019年,中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而,从体系化、确保一致性、避免碎片化考虑,制订专门的数据安全法、个人信息保护法是必要的。

另一方面,我们也应看到,这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下,不因噎废食,不对大数据价值的挖掘利用造成过分的负面影响,是当前全世界在数据治理中面临的共同课题。

近年来,围绕大数据治理这一主题及其相关问题,国际上已有不少成功的实践和研究探索工作,诸如在国家层面推出的促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规,针对企业机构的数据管理能力评估和改善,面向数据质量保证的方法与技术,促进数据互操作的技术规范和标准等。然而,考察当前的研究和实践,仍存在三个方面的主要问题。

一是大数据治理概念的使用相对“狭义”,研究和实践大都以企业组织为对象,仅从个体组织的角度考虑大数据治理的相关问题,这与大数据跨界流动的迫切需求存在矛盾,限制了大数据价值的发挥。二是现有研究实践对大数据治理内涵的理解尚未形成共识,不同研究者从流程设计、信息治理和数据管理应用等不同视角,给出了大数据治理的不同定义,共识的形成尚有待时日!三是大数据治理相关的研究实践多条线索并行,关联性、完整性和一致性不足。诸如,国家层面的政策法规和法律制定等较少被纳入大数据治理的视角;数据作为一种资产的地位仍未通过法律法规予以确立,难以进行有效的管理和应用;大数据管理已有不少可用技术与产品,但还缺乏完善的多层级管理体制和高效管理机制;如何有机结合技术与标准,建立良好的大数据共享与开放环境仍需要进一步探索。缺少系统化设计,仅仅在已有的相关体系上进行扩展和延伸,可能会导致数据治理的“碎片化”和一致性缺失等等。

当前,各界已经普遍认识到了大数据治理的重要意义,大数据治理体系建设已经成为大数据发展重点,但仍处在发展的雏形阶段,推进大数据治理体系建设将是未来较长一段时间内需要持续努力的方向。

三是数据规模高速增长,现有技术体系难以满足大数据应用的需求,大数据理论与技术远未成熟,未来信息技术体系将需要颠覆式创新和变革。

近年来,数据规模呈几何级数高速成长。据国际信息技术咨询企业国际数据公司(IDC)的报告,2020年全球数据存储量将达到44ZB(1021),到2030年将达到2500ZB。当前,需要处理的数据量已经大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”。据国际商业机器公司(IBM)的研究报告估计,大多数企业仅对其所有数据的1%进行了分析应用。

近年来,大数据获取、存储、管理、处理、分析等相关的技术已有显著进展,但是大数据技术体系尚不完善,大数据基础理论的研究仍处于萌芽期。首先,大数据定义虽已达成初步共识,但许多本质问题仍存在争议,例如:数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等;其次,针对特定数据集和特定问题域已有不少专用解决方案,是否有可能形成“通用”或“领域通用”的统一技术体系,仍有待未来的技术发展给出答案;其三,应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。

推演信息技术的未来发展趋势,较长时期内仍将保持渐进式发展态势,随技术发展带来的数据处理能力的提升将远远落后于按指数增长模式快速递增的数据体量,数据处理能力与数据资源规模之间的“剪刀差”将随时间持续扩大,大数据现象将长期存在。在此背景下,大数据现象倒逼技术变革,将使得信息技术体系进行一次重构,这也带来了颠覆式发展的机遇。例如,计算机体系结构以数据为中心的宏观走向和存算一体的微观走向,软件定义方法论的广泛采用,云边端融合的新型计算模式等;网络通信向宽带、移动、泛在发展,海量数据的快速传输和汇聚带来的网络的Pb/s级带宽需求,千亿级设备联网带来的Gb/s级高密度泛在移动接入需求;大数据的时空复杂度亟需在表示、组织、处理和分析等方面的基础性原理性突破,高性能、高时效、高吞吐等极端化需求呼唤基础器件的创新和变革;软硬件开源开放趋势导致产业发展生态的重构;等等。

三、大数据与数字经济

大数据是信息技术发展的必然产物,更是信息化进程的新阶段,其发展推动了数字经济的形成与繁荣。信息化已经历了两次高速发展的浪潮,始于上世纪80年代,随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化(信息化1.0),及始于上世纪90年代中期,随互联网大规模商用进程所推动的以联网应用为主要特征的网络化(信息化2.0)。当前,我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化3.0)。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。

在信息化发展历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。

信息化新阶段开启的另一个重要表征是信息技术开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变,进而催生一种新的经济范式—“数字经济”。数字经济是指以数字化知识和信息为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动,是以新一代信息技术和产业为依托,继农业经济、工业经济之后的新经济形态。从构成上看,农业经济属单层结构,以农业为主,配合以其他行业,以人力、畜力和自然力为动力,使用手工工具,以家庭为单位自给自足,社会分工不明显,行业间相对独立;工业经济是两层结构,即提供能源动力和行业制造设备的装备制造产业,以及工业化后的各行各业,并形成分工合作的工业体系。数字经济则可分为三个层次:提供核心动能的信息技术及其装备产业、深度信息化的各行各业以及跨行业数据融合应用的数据增值产业。当前,数字经济正处于成型展开期,将进入信息技术引领经济发展的爆发期、黄金期!

从另一个视角来看,如果说过去20多年,互联网高速发展引发了一场社会经济的“革命”,深刻地改变了人类社会,现在可以看到,互联网革命的上半场已经结束。上半场的主要特征是“2C”(面向最终用户),主战场是面向个人提供社交、购物、教育、娱乐等服务,可称为“消费互联网”。而互联网革命的下半场正在开启,其主要特征将是“2B”(面向组织机构),重点在于促进供给侧的深刻变革,互联网应用将面向各行业,特别是制造业,以优化资源配置、提质增效为目标,构建以工业物联为基础和工业大数据为要素的工业互联网。作为互联网发展的新领域,工业互联网是新一代信息技术与生产技术深度融合的产物,它通过人、机、物的深度互联,全要素、全产业链、全价值链的全面链接,推动形成新的工业生产制造和服务体系。当前,新一轮工业革命正在拉开帷幕,在全球范围内不断颠覆传统制造模式、生产组织方式和产业形态,而我国正处于由数量和规模扩张向质量和效益提升转变的关键期,需要抓住历史机遇期,促进新旧动能转换,形成竞争新优势。我国是制造大国和互联网大国,推动工业互联网创新发展具备丰富的应用场景、广阔的市场空间和巨大的推进动力。

数字经济未来发展呈现如下趋势:一是以互联网为核心的新一代信息技术正逐步演化为人类社会经济活动的基础设施,并将对原有的物理基础设施完成深度信息化改造和软件定义,在其支撑下,人类极大地突破了沟通和协作的时空约束,推动平台经济、共享经济等新经济模式快速发展。以平台经济中的零售平台为例,百货大楼在前互联网时代对促进零售业发展起到了重要作用。而从上世纪九十年代中后期开始,伴随互联网的普及,电子商务平台逐渐兴起。与要求供需方必须在同一时空达成交易的百货大楼不同,电子商务平台依托互联网,将遍布全球各个角落的消费者、供货方连接在一起,并聚合物流、支付、信用管理等配套服务,突破了时空约束,大幅减少了中间环节,降低了交易成本,提高了交易效率。按阿里研究院的报告,过去十年间,中国电子商务规模增长了10倍,并呈加速发展趋势。二是各行业工业互联网的构建将促进各种业态围绕信息化主线深度协作、融合,在完成自身提升变革的同时,不断催生新的业态,并使一些传统业态走向消亡。如随着无人驾驶汽车技术的成熟和应用,传统出租车业态将可能面临消亡。其他很多重复性的、对创新创意要求不高的传统行业也将退出历史舞台。2017年10月,《纽约客》杂志报道了剑桥大学两名研究者对未来365种职业被信息技术淘汰的可能性分析,其中电话推销员、打字员、会计等职业高居榜首。三是在信息化理念和政务大数据的支撑下,政府的综合管理服务能力和政务服务的便捷性持续提升,公众积极参与社会治理,形成共策共商共治的良好生态。四是信息技术体系将完成蜕变升华式的重构,释放出远超当前的技术能力,从而使蕴含在大数据中的巨大价值得以充分释放,带来数字经济的爆发式增长。

四、我国大数据发展的态势

党的十八届五中全会将大数据上升为国家战略。回顾过去几年的发展,我国大数据发展可总结为:“进步长足,基础渐厚;喧嚣已逝,理性回归;成果丰硕,短板仍在;势头强劲,前景光明”。

作为人口大国和制造大国,我国数据产生能力巨大,大数据资源极为丰富。随着数字中国建设的推进,各行业的数据资源采集、应用能力不断提升,将会导致更快更多的数据积累。预计到2020年,我国数据总量有望达到8000EB(1018),占全球数据总量的21%,将成为名列前茅的数据资源大国和全球数据中心。

我国互联网大数据领域发展态势良好,市场化程度较高,一些互联网公司建成了具有国际领先水平的大数据存储与处理平台,并在移动支付、网络征信、电子商务等应用领域取得国际先进甚至领先的重要进展。然而,大数据与实体经济融合还远不够,行业大数据应用的广度和深度明显不足,生态系统亟待形成和发展。

随着政务信息化的不断发展,各级政府积累了大量与公众生产生活息息相关的信息系统和数据,并成为最具价值数据的保有者。如何盘活这些数据,更好地支撑政府决策和便民服务,进而引领促进大数据事业发展,是事关全局的关键。2015年9月,国务院发布《促进大数据发展行动纲要》,其中重要任务之一就是“加快政府数据开放共享,推动资源整合,提升治理能力”,并明确了时间节点,2017年跨部门数据资源共享共用格局基本形成;2018年建成政府主导的数据共享开放平台,打通政府部门、企事业单位间的数据壁垒,并在部分领域开展应用试点;2020年实现政府数据集的普遍开放。随后,国务院和国务院办公厅又陆续印发了系列文件,推进政务信息资源共享管理、政务信息系统整合共享、互联网+政务服务试点、政务服务一网一门一次改革等,推进跨层级、跨地域、跨系统、跨部门、跨业务的政务信息系统整合、互联、协同和数据共享,用政务大数据支撑“放管服”改革落地,建设数字政府和智慧政府。目前,我国政务领域的数据开放共享已取得了重要进展和明显效果。例如:浙江省推出的“最多跑一次”改革,是推进供给侧结构性改革、落实“放管服”改革、优化营商环境的重要举措。以衢州市不动产交易为例,通过设立综合窗口再造业务流程,群众由原来跑国土、住建、税务3个窗口8次提交3套材料,变为只跑综合窗口1个窗口1次提交1套材料,效率大幅提高。据有关统计,截至2019年上半年,我国已有82个省级、副省级和地级政府上线了数据开放平台,涉及41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市。

我国已经具备加快技术创新的良好基础。在科研投入方面,前期通过国家科技计划在大规模集群计算、服务器、处理器芯片、基础软件等方面系统性部署了研发任务,成绩斐然。“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术,特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平;在大数据存储、处理方面,研发了一些重要产品,有效地支撑了大数据应用;国内互联网公司推出的大数据平台和服务,处理能力跻身世界前列。

国家大数据战略实施以来,地方政府纷纷响应联动、积极谋划布局。国家发改委组织建设11个国家大数据工程实验室,为大数据领域相关技术创新提供支撑和服务。发改委、工信部、中央网信办联合批复贵州、上海、京津冀、珠三角等8个综合试验区,正在加快建设。各地方政府纷纷出台促进大数据发展的指导政策、发展方案、专项政策和规章制度等,使大数据发展呈蓬勃之势。

然而,我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。

一是大数据治理体系尚待构建。首先,法律法规滞后。目前,我国尚无真正意义上的数据管理法规,只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容,难以满足快速增长的数据管理需求。其次,共享开放程度低。推动数据资源共享开放,将有利于打通不同部门和系统的壁垒,促进数据流转,形成覆盖全面的大数据资源,为大数据分析应用奠定基础。我国政府机构和公共部门已经掌握巨大的数据资源,但存在“不愿”、“不敢”和“不会”共享开放的问题。例如:在“最多跑一次”改革中,由于技术人员缺乏,政务业务流程优化不足,涉及部门多、链条长,长期以来多头管理、各自为政等问题,导致很多地区、乡镇的综合性窗口难建立、数据难流动、业务系统难协调。同时,由于办事流程不规范,网上办事大厅指南五花八门,以至于同一个县市办理同一项事件,需要的材料、需要集成的数据在各乡镇的政务审批系统里却各有不同,造成群众不能一次性获得准确的相关信息而需要“跑多次”。当前,我国的政务数据共享开放进程,相对于《行动纲要》明确的时间节点,已明显落后,且数据质量堪忧。不少地方的政务数据开放平台,仍然存在标准不统一、数据不完整、不好用甚至不可用等问题。政务数据共享开放意义重大,仍需要坚持不懈地持续推进。此外,在数据共享与开放的实施过程中,各地还存在片面强调数据物理集中的“一刀切”现象,对已有信息化建设投资保护不足,造成新的浪费。第三,安全隐患增多。近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战。在大数据环境下,数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中,所有权与管理权分离,真假难辨,多系统、多环节的信息隐性留存,导致数据跨境跨系统流转追踪难、控制难,数据确权和可信销毁也更加困难。

二是核心技术薄弱。基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。

三是融合应用有待深化。我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。

五、若干思考和建议

最后,我想基于自己在大数据领域的研究实践,汇报若干思考和建议。一家之见,仅供参考。

(一)大力发展行业大数据应用

当前,我国互联网领域的大数据应用市场化程度高、发展较好,但行业应用广度和深度明显不足,生态系统亟待形成和发展。事实上,与实体经济紧密结合的行业大数据应用蕴含了更加巨大的发展潜力和价值。以制造业为例,麦肯锡研究报告称:制造企业在利用大数据技术后,其生产成本能够降低10%—15%。而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据,制造业企业可以更加精细、个性化地了解客户需求;建立更加精益化、柔性化、智能化的生产系统;创造包括销售产品、服务、价值等多样的商业模式;并实现从应激式到预防式的工业系统运转管理模式的转变。制造业是国民经济不可或缺的一环,也是一个国家竞争力背后的强大力量支撑。我国制造业位居世界第一,却大而不强。企业创新能力不足,高端和高价值产品欠缺,在国际产业分工中处于中低端,大力推动制造业大数据应用的发展,对产业升级转型至关重要。

当前,我国不同行业领域正在积极推进数字化转型、网络化重构、智能化提升,推动行业大数据应用,也是推进数字中国建设的重要途径和基础。

(二)建立系统全面的大数据治理体系

大数据是数字经济的关键要素,强大的信息技术产业和全面深度信息化赋能的传统行业无疑是数字经济的基础!大数据治理须从营造大数据产业发展环境的视角予以全面、系统化考虑!

我以为,在一国之范围内,大数据治理体系建设涉及国家、行业和组织三个层次,至少包含数据的资产地位确立、管理体制机制、共享与开放、安全与隐私保护等四方面内容,需要从制度法规、标准规范、应用实践和支撑技术等视角多管齐下,提供支撑。

在国家层次,重点是要在法律法规层面明确数据的资产地位,奠定数据确权、流通、交易和保护的基础,制定促进数据共享开放的政策法规和标准规范,促进政务数据和行业数据的融合应用,并且出台数据安全与隐私保护的法律法规,保障国家、组织和个人的数据安全。在行业层次,重点是要在国家相关法律法规框架下,充分考虑本行业中企业的共同利益与长效发展,建立规范行业数据管理的组织机构和数据管控制度,制定行业内数据共享与开放的规则和技术规范,促进行业内数据的共享交换和融合应用。在组织层次,重点是要提升企业对数据全生命期的管理能力,促进企业内部和企业间的数据流通,提升数据变现能力,保障企业自身的数据安全及客户的数据安全和隐私信息。

在数据治理体系建设中,数据共享开放是大数据资源建设的前提,在现阶段重要性尤其突出。在平衡数据共享开放和隐私保护、数据安全的关系时,我以为,还是需要强调应用先行、安全并重的原则。数据共享开放不应被孤立看待,可能需要综合考虑数据的使用场合及数据主体的权益。如,数据集中管理可能带来保管上的安全问题,然而数据融合才能产生价值,一定程度的集中是趋势所在,也更利于建立更强大可靠的保护机制;多源数据的融合可能导致信息泄露,然而在确知风险前,是否需要因其“可能性”而拒绝技术的应用?数据脱敏仍然可能存在隐私泄露的风险,是否允许个体在知情前提下“用隐私换方便”、“用隐私换治疗换健康”?是否允许使用符合当前“标准”、但无法确保未来一定不出现信息泄露的脱敏方法,并对相关应用予以免责?当然,加强兼顾隐私保护、数据安全和数据流动利用的新技术研发,也非常必要。当前,如安全多方计算、同态加密、联邦学习等技术研发,希望允许拥有数据的各方在不向其他组织或个人公开数据中所含敏感信息的情况下,实现数据的融合利用。虽然这些技术尚处于发展的初级阶段,但因其广阔的应用前景而受到普遍关注。

另外,打破信息孤岛、盘活数据存量是当前一项紧迫的任务,而在此过程中,不宜过分强调物理集中,而应将逻辑互联作为打通信息“孤岛”的手段,逻辑互联先行,物理集中跟进。在数据共享体系建设中,需要在一定层级上构建物理分散、逻辑统一、管控可信、标准一致的政务信息资源共享交换体系,在不改变现有信息系统与数据资源的所有权及管理格局的前提下,明晰责权利,即:数据应用部门提需求、数据拥有部门做响应、交换平台管理部门保流转。同时,集约化的政务云建设正成为政府、企业建设新的信息系统的首选方案,如何在新一轮建设热潮中,从规划、立项审批、建设、审计等环节以及方案指导、标准规范和技术支持等方面给予全方位保障,尽可能避免新“孤岛”的产生,也是一项重大挑战。

(三)以开源为基础构建自主可控的大数据产业生态

在大数据时代,软件开源和硬件开放已成为不可逆的趋势,掌控开源生态,已成为国际产业竞争的焦点。建议采用“参与融入、蓄势引领”的开源推进策略,一方面鼓励我国企业积极“参与融入”国际成熟的开源社区,争取话语权;另一方面,也要在建设基于中文的开源社区方面加大投入,汇聚国内软硬件资源和开源人才,打造自主可控开源生态,在学习实践中逐渐成长壮大,伺机实现引领发展。中文开源社区的建设,需要国家在开源相关政策法规和开源基金会制度建立方面给予支持。此外,在开源背景下,对“自主可控”的内涵定义也有待更新,不一定强调硬件设计和软件代码的所有权,更多应体现在对硬件设计方案和软件代码的理解、掌握、改进及应用能力。

(四)积极推动国际合作并筹划布局跨国数据共享机制

2018年11月17日,习近平总书记在APEC工商领导人峰会上发表主旨演讲指出“经济全球化是人类社会发展必经之路”,“各国都是全球合作链条中的一环”。在数字经济快速发展的时代背景下,我国应该积极推动在大数据技术和应用方面的国际合作,建立跨国数据共享机制,与其他国家一起分享数字经济的红利,同时也使我国获得更多发展机遇和更大发展空间,积极促进数字经济下人类利益共同体和命运共同体的构建。当前,我国正在积极推动“一带一路”合作发展。各国在合作的各个领域都将产生大量的数据。建议积极推进跨国的大数据治理合作,在保障数据安全的前提下,促进数据跨境流动,从而形成围绕国家合作各个领域的大数据资源,为数字经济领域的国际合作奠定坚实的基础。“一带一路”沿线大都属发展中国家,无论技术还是经济水平较之发达国家都有明显差距。而数字经济这一新经济形态的成型发展将带给包括中国在内的各发展中国家经济转型发展的历史性机遇期。经济后发国家有机会在新经济的全球垄断性格局形成之前,与发达国家站在同一起跑线上,并且由于没有“路径依赖”所带来的历史包袱,也有可能在新一轮的竞争中占有优势。

(五)未雨绸缪,防范大数据发展可能带来的新风险

大数据发展可能导致一系列新的风险。例如,数据垄断可能导致数据“黑洞”现象。一些企业凭借先发展起来的行业优势,不断获取行业数据,但却“有收无放”,呈现出数据垄断的趋势。这种数据垄断不仅不利于行业的健康发展,而且有可能对国家安全带来冲击和影响。又如,数据和算法可能导致人们对其过分“依赖”及社会“被割裂”等伦理问题。大数据分析算法根据各种数据推测用户的偏好并推荐内容,在带来便利的同时,也导致人们只看到自己“希望看到的”信息,从而使人群被割裂为多个相互之间难以沟通、理解的群体,其可能引发的社会问题将是难以“亡羊补牢”的。

需要看到,以互联网为代表的新一代信息技术所带来的这场社会经济“革命”,在广度、深度和速度上都将是空前的,也会是远远超出我们从工业社会获得的常识和认知、远远超出我们的预期的,适应信息社会的个体素质的养成、满足未来各种新兴业态就业需求的合格劳动者的培养,将是我们面临的巨大挑战!唯有全民提升对大数据的正确认知,具备用大数据思维认识和解决问题的基本素质和能力,才有可能积极防范大数据带来的新风险;唯有加快培养适应未来需求的合格人才,才有可能在数字经济时代形成国家的综合竞争力。

我的汇报结束,谢谢大家!

(主讲人系中国人民解放军军事科学院副院长)

          

名词解释:

API:应用编程接口(Application Programming Interface)的首字母缩写,是指某软件系统或平台为其他应用软件系统提供的一组函数,通过调用这些函数,其他应用软件系统可以使用此软件系统或平台的部分功能或访问某些数据。

开源平台:“开源”是开放源代码的简称,开源平台是指支持开源社区活动,管理开放源代码,向所有开源社区参与者提供相关服务的软件平台(平台基于互联网构建并通过互联网通过服务)。任何人都可以获得开源软件的源代码并加以修改,并在某个预先约定的开源协议限制范围内发布修改后的新版本。结合上下文,这里的开源平台是指提供大数据管理、处理、分析等方面能力的开源软件的软件平台。

可伸缩的计算体系结构:可伸缩英文为scalable,指一个计算系统的能力和性能随应用负载的增加,通过极少的改动或配置甚至只是简单的硬件资源增加,而保持线性增长的能力,是表征计算系统处理能力的一个重要的设计指标。可伸缩的计算体系结构是计算系统体系结构设计追求的重要指标,软件定义、虚拟化、资源池化等方法和技术常用于可伸缩性的实现。

鲁棒性:鲁棒是英文Robust的音译,也就是健壮的意思,因此鲁棒性也被翻译为健壮性。鲁棒性一般用于描述一个系统在异常或极端情况下仍然可以工作的能力。结合上下文,这里谈及的大数据分析模型的鲁棒性是指在数据存在错误、噪音、缺失,甚至在恶意数据攻击等异常情况下,模型仍然能得到较为准确结论的能力。

数据互操作:数据互操作是指不同信息系统之间可以通过网络连接对彼此的数据进行访问,包括对其他系统数据的读取与写入。数据互操作是实现数据共享的基础。

“全数据”:“全数据”也称“全量数据”,是与“采样数据”相对的概念。传统的数据分析受限于数据采集、存储、处理的成本,一般都仅对问题相关的所有数据进行局部采样,并基于采样获得的部分数据进行分析,得出结论,结论的准确性与采样方法以及对被采样数据的统计假设密切相关。而大数据时代,人们开始提出“全数据”的概念,即,并不采样,而是将与问题相关的所有数据全部输入到分析模型中分析。这种方法避免了因采样而可能带来的误差,但是也增加了计算成本。

云边端融合:云是指云计算中心,边是指边缘计算设备,端是指终端设备。以智能家居为例,智能电视、冰箱、空调等直接与用户交互的设备是“端”,通过互联网连接的异地的云计算平台是“云”,而安装在每个家庭的智能家居中控服务器是“边”。云计算中心具有强大的计算存储能力,一般用于复杂的数据计算处理;终端设备距离最终用户较近,对用户的操作响应快,一般负责与用户进行交互;边缘计算设备介于“云”和“端”之间,负责对端所采集的数据做本地化处理,同时将需要更强大计算能力支持的任务和数据发往云计算中心处理,并将“云”返回的结果提供给端设备。云边端融合是一种“云”、“边”、“端”不同计算设备各司其职,密切协同且优势互补的新型计算模式。

宽带、移动、泛在的网络通信:“宽带”是指通信速率高,海量大数据的高速传输需求推动骨干网络向Pb/s发展;“移动”是指移动通信;“泛在”是指无所不在。宽带、移动、泛在通信是指:未来大量移动终端和物联网设备通过无所不在的接入网络接入主干网并通过高速主干网络进行通信。

安全多方计算:安全多方计算是为解决在保护隐私信息以及没有可信第三方的前提下,一组互不信任的参与方之间的协同计算问题而提出的理论框架。安全多方计算能够同时确保输入的隐私性和计算的正确性,在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露,且同时能够获得准确的运算结果。此项技术的研究尚处于初级阶段。

同态加密:同态加密是一种密码学技术,其核心在于保证:对经过同态加密的数据进行处理(如:运行某种数据分析算法)后得到输出,将这一输出进行解密,其结果与用同一方法(即上述数据分析算法)处理未加密的原始数据得到的输出结果一致。同态加密技术使得数据拥有者可以将数据加密后交给第三方处理,从第三方获得处理结果后,对此结果进行解密便可获得所期望的结果。如此一来,数据拥有者就不必担心因将原始数据交给第三方而存在的隐私泄露风险,同时又能获得第三方提供的数据分析服务。此项技术的研究尚处于初级阶段。

联邦学习:联邦机器学习是一个多组织协同的机器学习框架,使得一个组织在不共享原始数据的情况下,可以利用其他组织数据中所蕴含的信息和知识,建立协同的机器学习模型。此模型比各组织仅利用本组织内部数据而训练的机器学习模型有更高的性能。此项技术的研究尚处于初级阶段。

ZB、EB、Pb/s、Gb/s:在计算机领域,一个二进制位称为一个比特,一般用小写b表示;而8个二进制位称一个字节,用大写B表示。简言之:1B=8b。计算数据量或数据所需存储空间大小时,习惯用字节为单位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB(通常简记为109),1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB约等于10亿GB,而1ZB约等于1万亿GB。假设一首长为3分钟的歌曲录制成MP3文件(44K/320kbps音质),大小约为8MB,那么1ZB的数据存储空间可存储MP3格式歌曲140万亿多首,如果全部听一遍,需要8亿多年。计算网络传输速率时习惯上用比特每秒为单位(用b/s表示)。1Pb/S和1Gb/S分别代表1秒钟传输的数据是1P(1000万亿)个比特和1G(10亿)个比特。网络速率1Gb/S(此处是小写b)的情况下,下载一个2GB(此处是大写B)的电影,需要16秒;而网络速率1Pb/S的情况下,仅需要0.016毫秒。

人工智能的历史、现状和未来

2018年2月25日,在平昌冬奥会闭幕式“北京8分钟”表演中,由沈阳新松机器人自动化股份有限公司研发的智能移动机器人与轮滑演员进行表演。新华社记者李钢/摄

2018年5月3日,中国科学院发布国内首款云端人工智能芯片,理论峰值速度达每秒128万亿次定点运算,达到世界先进水平。新华社记者金立旺/摄

2017年10月,在沙特阿拉伯首都利雅得举行的“未来投资倡议”大会上,机器人索菲亚被授予沙特公民身份,她也因此成为全球首个获得公民身份的机器人。图为2018年7月10日,在香港会展中心,机器人索菲亚亮相主舞台。ISAACLAWRENCE/视觉中国

2018年11月22日,在“伟大的变革——庆祝改革开放40周年大型展览”上,第三代国产骨科手术机器人“天玑”正在模拟做手术,它是国际上首个适应症覆盖脊柱全节段和骨盆髋臼手术的骨科机器人,性能指标达到国际领先水平。麦田/视觉中国

如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,人工智能正成为推动人类进入智能时代的决定性力量。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义,纷纷转型发展,抢滩布局人工智能创新生态。世界主要发达国家均把发展人工智能作为提升国家竞争力、维护国家安全的重大战略,力图在国际科技竞争中掌握主导权。习近平总书记在十九届中央政治局第九次集体学习时深刻指出,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。错失一个机遇,就有可能错过整整一个时代。新一轮科技革命与产业变革已曙光可见,在这场关乎前途命运的大赛场上,我们必须抢抓机遇、奋起直追、力争超越。

概念与历程

了解人工智能向何处去,首先要知道人工智能从何处来。1956年夏,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(ArtificialIntelligence,简称AI)”这一概念,标志着人工智能学科的诞生。

人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学,研究目的是促使智能机器会听(语音识别、机器翻译等)、会看(图像识别、文字识别等)、会说(语音合成、人机对话等)、会思考(人机对弈、定理证明等)、会学习(机器学习、知识表示等)、会行动(机器人、自动驾驶汽车等)。

人工智能充满未知的探索道路曲折起伏。如何描述人工智能自1956年以来60余年的发展历程,学术界可谓仁者见仁、智者见智。我们将人工智能的发展历程划分为以下6个阶段:

一是起步发展期:1956年—20世纪60年代初。人工智能概念提出后,相继取得了一批令人瞩目的研究成果,如机器定理证明、跳棋程序等,掀起人工智能发展的第一个高潮。

二是反思发展期:20世纪60年代—70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,人们开始尝试更具挑战性的任务,并提出了一些不切实际的研发目标。然而,接二连三的失败和预期目标的落空(例如,无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等),使人工智能的发展走入低谷。

三是应用发展期:20世纪70年代初—80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功,推动人工智能走入应用发展的新高潮。

四是低迷发展期:20世纪80年代中—90年代中。随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。

五是稳步发展期:20世纪90年代中—2010年。由于网络技术特别是互联网技术的发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。1997年国际商业机器公司(简称IBM)深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫,2008年IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。

六是蓬勃发展期:2011年至今。随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破,迎来爆发式增长的新高潮。

现状与影响

对于人工智能的发展现状,社会上存在一些“炒作”。比如说,认为人工智能系统的智能水平即将全面超越人类水平、30年内机器人将统治世界、人类将成为人工智能的奴隶,等等。这些有意无意的“炒作”和错误认识会给人工智能的发展带来不利影响。因此,制定人工智能发展的战略、方针和政策,首先要准确把握人工智能技术和产业发展的现状。

专用人工智能取得重要突破。从可应用性看,人工智能大体可分为专用人工智能和通用人工智能。面向特定任务(比如下围棋)的专用人工智能系统由于任务单一、需求明确、应用边界清晰、领域知识丰富、建模相对简单,形成了人工智能领域的单点突破,在局部智能水平的单项测试中可以超越人类智能。人工智能的近期进展主要集中在专用智能领域。例如,阿尔法狗(AlphaGo)在围棋比赛中战胜人类冠军,人工智能程序在大规模图像识别和人脸识别中达到了超越人类的水平,人工智能系统诊断皮肤癌达到专业医生水平。

通用人工智能尚处于起步阶段。人的大脑是一个通用的智能系统,能举一反三、融会贯通,可处理视觉、听觉、判断、推理、学习、思考、规划、设计等各类问题,可谓“一脑万用”。真正意义上完备的人工智能系统应该是一个通用的智能系统。目前,虽然专用人工智能领域已取得突破性进展,但是通用人工智能领域的研究与应用仍然任重而道远,人工智能总体发展水平仍处于起步阶段。当前的人工智能系统在信息感知、机器学习等“浅层智能”方面进步显著,但是在概念抽象和推理决策等“深层智能”方面的能力还很薄弱。总体上看,目前的人工智能系统可谓有智能没智慧、有智商没情商、会计算不会“算计”、有专才而无通才。因此,人工智能依旧存在明显的局限性,依然还有很多“不能”,与人类智慧还相差甚远。

人工智能创新创业如火如荼。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义,纷纷调整发展战略。比如,谷歌在其2017年年度开发者大会上明确提出发展战略从“移动优先”转向“人工智能优先”,微软2017财年年报首次将人工智能作为公司发展愿景。人工智能领域处于创新创业的前沿。麦肯锡公司报告指出,2016年全球人工智能研发投入超300亿美元并处于高速增长阶段;全球知名风投调研机构CBInsights报告显示,2017年全球新成立人工智能创业公司1100家,人工智能领域共获得投资152亿美元,同比增长141%。

创新生态布局成为人工智能产业发展的战略高地。信息技术和产业的发展史,就是新老信息产业巨头抢滩布局信息产业创新生态的更替史。例如,传统信息产业代表企业有微软、英特尔、IBM、甲骨文等,互联网和移动互联网时代信息产业代表企业有谷歌、苹果、脸书、亚马逊、阿里巴巴、腾讯、百度等。人工智能创新生态包括纵向的数据平台、开源算法、计算芯片、基础软件、图形处理器等技术生态系统和横向的智能制造、智能医疗、智能安防、智能零售、智能家居等商业和应用生态系统。目前智能科技时代的信息产业格局还没有形成垄断,因此全球科技产业巨头都在积极推动人工智能技术生态的研发布局,全力抢占人工智能相关产业的制高点。

人工智能的社会影响日益凸显。一方面,人工智能作为新一轮科技革命和产业变革的核心力量,正在推动传统产业升级换代,驱动“无人经济”快速发展,在智能交通、智能家居、智能医疗等民生领域产生积极正面影响。另一方面,个人信息和隐私保护、人工智能创作内容的知识产权、人工智能系统可能存在的歧视和偏见、无人驾驶系统的交通法规、脑机接口和人机共生的科技伦理等问题已经显现出来,需要抓紧提供解决方案。

趋势与展望

经过60多年的发展,人工智能在算法、算力(计算能力)和算料(数据)等“三算”方面取得了重要突破,正处于从“不能用”到“可以用”的技术拐点,但是距离“很好用”还有诸多瓶颈。那么在可以预见的未来,人工智能发展将会出现怎样的趋势与特征呢?

从专用智能向通用智能发展。如何实现从专用人工智能向通用人工智能的跨越式发展,既是下一代人工智能发展的必然趋势,也是研究与应用领域的重大挑战。2016年10月,美国国家科学技术委员会发布《国家人工智能研究与发展战略计划》,提出在美国的人工智能中长期发展策略中要着重研究通用人工智能。阿尔法狗系统开发团队创始人戴密斯·哈萨比斯提出朝着“创造解决世界上一切问题的通用人工智能”这一目标前进。微软在2017年成立了通用人工智能实验室,众多感知、学习、推理、自然语言理解等方面的科学家参与其中。

从人工智能向人机混合智能发展。借鉴脑科学和认知科学的研究成果是人工智能的一个重要研究方向。人机混合智能旨在将人的作用或认知模型引入到人工智能系统中,提升人工智能系统的性能,使人工智能成为人类智能的自然延伸和拓展,通过人机协同更加高效地解决复杂问题。在我国新一代人工智能规划和美国脑计划中,人机混合智能都是重要的研发方向。

从“人工+智能”向自主智能系统发展。当前人工智能领域的大量研究集中在深度学习,但是深度学习的局限是需要大量人工干预,比如人工设计深度神经网络模型、人工设定应用场景、人工采集和标注大量训练数据、用户需要人工适配智能系统等,非常费时费力。因此,科研人员开始关注减少人工干预的自主智能方法,提高机器智能对环境的自主学习能力。例如阿尔法狗系统的后续版本阿尔法元从零开始,通过自我对弈强化学习实现围棋、国际象棋、日本将棋的“通用棋类人工智能”。在人工智能系统的自动化设计方面,2017年谷歌提出的自动化学习系统(AutoML)试图通过自动创建机器学习系统降低人员成本。

人工智能将加速与其他学科领域交叉渗透。人工智能本身是一门综合性的前沿学科和高度交叉的复合型学科,研究范畴广泛而又异常复杂,其发展需要与计算机科学、数学、认知科学、神经科学和社会科学等学科深度融合。随着超分辨率光学成像、光遗传学调控、透明脑、体细胞克隆等技术的突破,脑与认知科学的发展开启了新时代,能够大规模、更精细解析智力的神经环路基础和机制,人工智能将进入生物启发的智能阶段,依赖于生物学、脑科学、生命科学和心理学等学科的发现,将机理变为可计算的模型,同时人工智能也会促进脑科学、认知科学、生命科学甚至化学、物理、天文学等传统科学的发展。

人工智能产业将蓬勃发展。随着人工智能技术的进一步成熟以及政府和产业界投入的日益增长,人工智能应用的云端化将不断加速,全球人工智能产业规模在未来10年将进入高速增长期。例如,2016年9月,咨询公司埃森哲发布报告指出,人工智能技术的应用将为经济发展注入新动力,可在现有基础上将劳动生产率提高40%;到2035年,美、日、英、德、法等12个发达国家的年均经济增长率可以翻一番。2018年麦肯锡公司的研究报告预测,到2030年,约70%的公司将采用至少一种形式的人工智能,人工智能新增经济规模将达到13万亿美元。

人工智能将推动人类进入普惠型智能社会。“人工智能+X”的创新模式将随着技术和产业的发展日趋成熟,对生产力和产业结构产生革命性影响,并推动人类进入普惠型智能社会。2017年国际数据公司IDC在《信息流引领人工智能新时代》白皮书中指出,未来5年人工智能将提升各行业运转效率。我国经济社会转型升级对人工智能有重大需求,在消费场景和行业应用的需求牵引下,需要打破人工智能的感知瓶颈、交互瓶颈和决策瓶颈,促进人工智能技术与社会各行各业的融合提升,建设若干标杆性的应用场景创新,实现低成本、高效益、广范围的普惠型智能社会。

人工智能领域的国际竞争将日益激烈。当前,人工智能领域的国际竞赛已经拉开帷幕,并且将日趋白热化。2018年4月,欧盟委员会计划2018—2020年在人工智能领域投资240亿美元;法国总统在2018年5月宣布《法国人工智能战略》,目的是迎接人工智能发展的新时代,使法国成为人工智能强国;2018年6月,日本《未来投资战略2018》重点推动物联网建设和人工智能的应用。世界军事强国也已逐步形成以加速发展智能化武器装备为核心的竞争态势,例如美国特朗普政府发布的首份《国防战略》报告即谋求通过人工智能等技术创新保持军事优势,确保美国打赢未来战争;俄罗斯2017年提出军工拥抱“智能化”,让导弹和无人机这样的“传统”兵器威力倍增。

人工智能的社会学将提上议程。为了确保人工智能的健康可持续发展,使其发展成果造福于民,需要从社会学的角度系统全面地研究人工智能对人类社会的影响,制定完善人工智能法律法规,规避可能的风险。2017年9月,联合国犯罪和司法研究所(UNICRI)决定在海牙成立第一个联合国人工智能和机器人中心,规范人工智能的发展。美国白宫多次组织人工智能领域法律法规问题的研讨会、咨询会。特斯拉等产业巨头牵头成立OpenAI等机构,旨在“以有利于整个人类的方式促进和发展友好的人工智能”。

态势与思考

当前,我国人工智能发展的总体态势良好。但是我们也要清醒看到,我国人工智能发展存在过热和泡沫化风险,特别在基础研究、技术体系、应用生态、创新人才、法律规范等方面仍然存在不少值得重视的问题。总体而言,我国人工智能发展现状可以用“高度重视,态势喜人,差距不小,前景看好”来概括。

高度重视。党中央、国务院高度重视并大力支持发展人工智能。习近平总书记在党的十九大、2018年两院院士大会、全国网络安全和信息化工作会议、十九届中央政治局第九次集体学习等场合多次强调要加快推进新一代人工智能的发展。2017年7月,国务院发布《新一代人工智能发展规划》,将新一代人工智能放在国家战略层面进行部署,描绘了面向2030年的我国人工智能发展路线图,旨在构筑人工智能先发优势,把握新一轮科技革命战略主动。国家发改委、工信部、科技部、教育部等国家部委和北京、上海、广东、江苏、浙江等地方政府都推出了发展人工智能的鼓励政策。

态势喜人。据清华大学发布的《中国人工智能发展报告2018》统计,我国已成为全球人工智能投融资规模最大的国家,我国人工智能企业在人脸识别、语音识别、安防监控、智能音箱、智能家居等人工智能应用领域处于国际前列。根据2017年爱思唯尔文献数据库统计结果,我国在人工智能领域发表的论文数量已居世界第一。近两年,中国科学院大学、清华大学、北京大学等高校纷纷成立人工智能学院,2015年开始的中国人工智能大会已连续成功召开四届并且规模不断扩大。总体来说,我国人工智能领域的创新创业、教育科研活动非常活跃。

差距不小。目前我国在人工智能前沿理论创新方面总体上尚处于“跟跑”地位,大部分创新偏重于技术应用,在基础研究、原创成果、顶尖人才、技术生态、基础平台、标准规范等方面距离世界领先水平还存在明显差距。在全球人工智能人才700强中,中国虽然入选人数名列第二,但远远低于约占总量一半的美国。2018年市场研究顾问公司CompassIntelligence对全球100多家人工智能计算芯片企业进行了排名,我国没有一家企业进入前十。另外,我国人工智能开源社区和技术生态布局相对滞后,技术平台建设力度有待加强,国际影响力有待提高。我国参与制定人工智能国际标准的积极性和力度不够,国内标准制定和实施也较为滞后。我国对人工智能可能产生的社会影响还缺少深度分析,制定完善人工智能相关法律法规的进程需要加快。

前景看好。我国发展人工智能具有市场规模、应用场景、数据资源、人力资源、智能手机普及、资金投入、国家政策支持等多方面的综合优势,人工智能发展前景看好。全球顶尖管理咨询公司埃森哲于2017年发布的《人工智能:助力中国经济增长》报告显示,到2035年人工智能有望推动中国劳动生产率提高27%。我国发布的《新一代人工智能发展规划》提出,到2030年人工智能核心产业规模超过1万亿元,带动相关产业规模超过10万亿元。在我国未来的发展征程中,“智能红利”将有望弥补人口红利的不足。

当前是我国加强人工智能布局、收获人工智能红利、引领智能时代的重大历史机遇期,如何在人工智能蓬勃发展的浪潮中选择好中国路径、抢抓中国机遇、展现中国智慧等,需要深入思考。

树立理性务实的发展理念。任何事物的发展不可能一直处于高位,有高潮必有低谷,这是客观规律。实现机器在任意现实环境的自主智能和通用智能,仍然需要中长期理论和技术积累,并且人工智能对工业、交通、医疗等传统领域的渗透和融合是个长期过程,很难一蹴而就。因此,发展人工智能要充分考虑到人工智能技术的局限性,充分认识到人工智能重塑传统产业的长期性和艰巨性,理性分析人工智能发展需求,理性设定人工智能发展目标,理性选择人工智能发展路径,务实推进人工智能发展举措,只有这样才能确保人工智能健康可持续发展。

重视固本强基的原创研究。人工智能前沿基础理论是人工智能技术突破、行业革新、产业化推进的基石。面临发展的临界点,要想取得最终的话语权,必须在人工智能基础理论和前沿技术方面取得重大突破。我们要按照习近平总书记提出的支持科学家勇闯人工智能科技前沿“无人区”的要求,努力在人工智能发展方向和理论、方法、工具、系统等方面取得变革性、颠覆性突破,形成具有国际影响力的人工智能原创理论体系,为构建我国自主可控的人工智能技术创新生态提供领先跨越的理论支撑。

构建自主可控的创新生态。我国人工智能开源社区和技术创新生态布局相对滞后,技术平台建设力度有待加强。我们要以问题为导向,主攻关键核心技术,加快建立新一代人工智能关键共性技术体系,全面增强人工智能科技创新能力,确保人工智能关键核心技术牢牢掌握在自己手里。要着力防范人工智能时代“空心化”风险,系统布局并重点发展人工智能领域的“新核高基”:“新”指新型开放创新生态,如产学研融合等;“核”指核心关键技术与器件,如先进机器学习技术、鲁棒模式识别技术、低功耗智能计算芯片等;“高”指高端综合应用系统与平台,如机器学习软硬件平台、大型数据平台等;“基”指具有重大原创意义和技术带动性的基础理论与方法,如脑机接口、类脑智能等。同时,我们要重视人工智能技术标准的建设、产品性能与系统安全的测试。特别是我国在人工智能技术应用方面走在世界前列,在人工智能国际标准制定方面应当掌握话语权,并通过实施标准加速人工智能驱动经济社会转型升级的进程。

推动共担共享的全球治理。目前看,发达国家通过人工智能技术创新掌控了产业链上游资源,难以逾越的技术鸿沟和产业壁垒有可能进一步拉大发达国家和发展中国家的生产力发展水平差距。在发展中国家中,我国有望成为全球人工智能竞争中的领跑者,应布局构建开放共享、质优价廉、普惠全球的人工智能技术和应用平台,配合“一带一路”建设,让“智能红利”助推共建人类命运共同体。

作者:中央人民政府驻香港特别行政区联络办公室副主任、中国科学院院士

15张图表带你速览2023人工智能最新趋势

「中国人工智能研究论文总数已经超过了美国,成为全球第一」

「人工智能初创企业获得的资本青睐越来越少」

「主流NLP系统也存在种族歧视」

这些话题都出自斯坦福大学Human-Centered人工智能研究所近期发布的「2021年人工智能指数报告」。报告内容覆盖AI研发、技术性能、经济、教育、道德、多样性以及各国相关政策和国家战略等大量内容。

这份报告长达222页,包含大量数据和图表,我们从中精选了15份图表,带你速览这份斯坦福「2021年人工智能指数报告」,了解2021年人工智能发展现状。

作者|ElizaStrickland

编译|机器之能

「2021年人工智能指数报告」由斯坦福大学Human-Centered人工智能研究所,以及来自哈佛大学,经济合作与发展组织,thePartnershiponAI合作组织和SRIInternational的11名专家组成的指导委员会共同编制。这份报告引用了大量AI研究数据,引用了包括:arXiv的AI研究数据,Crunchbase的资金数据,以及对BlackinAI和QueerinAI等团体的调查。

报告对2021年度人工智能最新的研究趋势和进展进行了总结,并分析了资本、政策对AI技术的影响,以及深度学习、图像识别、语言识别等AI主要子领域的研究。

人工智能的盛夏

人工智能研究工作正处在爆炸增长期:2019年全球发布了超过12万篇人工智能研究领域的同行评审论文。自2000年以来,人工智能领域论文在同行评审论文中的占比,从0.8%一路攀升至2019年的3.8%。

中国在人工智能研究领域取得显著成就

自2017年中国研究人员发表的同行评审论文首次超过欧洲以来,中国的人工智能研究论文数量持续上升。到2020年,中国研究人员发布的人工智能研究论文在权威期刊的引用率已经领先全球。

AI指数指导委员会联合主任JackClark表示,这些数据对中国来说似乎是「学术成功的指标」,也在一定程度上映射出不同国家在人工智能生态体系建设方面的现状。他认为研究论文更像是一种学术权威认证,一个领域的学术性越弱,其行业实用性可能会越强。他指出:「中国有获得期刊出版物的明确政策,政府机构在研究中发挥更大的作用,而在美国,大部分这方面的研发主要集中在企业内部。」

快速训练=更好的AI

MLPerf以训练速度与硬件的关系为基础,分析了机器学习的系统性能,客观地对机器学习系统性能进行排名。通过对各种图像分类器系统在标准ImageNet数据库上进行培训,并根据训练时间进行排名。2018年,训练最佳系统需要6.2分钟;2020年,培训最佳系统需要47秒。这一进步也得益于近年来机器学习专用芯片的快速发展。

报告认为,硬件加速对机器学习的影响至关重要。系统训练耗时几秒和几小时的差别巨大,这种差异直接影响着研究人员的想法,以及研究的类型和数量,以及它可能影响到的研究风险。

AI不能理解「喝咖啡」?

在过去的几年里,人工智能在静态图像识别方面的进展突飞猛进,而计算机视觉未来必将朝着视频识别的方向发展。研究人员正在构建可以从视频剪辑中识别各种活动的系统,因为如果将机器视觉应用到现实世界(例如自动驾驶汽车、监控摄像头等),这种类型的识别可能会大有用处。计算机视觉性能的基准之一是ActivityNet数据集,其中包含来自2万个视频的近650小时镜头。在其中显示的200项日常生活活动中,人工智能系统在2019年和2020年都很难识别「喝咖啡」这项活动。这似乎是一个主要问题,因为喝咖啡是所有其他活动的基本活动。无论如何,这是未来几年值得关注的领域。

自然语言识别需要更难的测试

自然语言处理(NLP)的迅速崛起似乎遵循了计算机视觉的轨迹,在过去十年中,计算机视觉从学术领域的分支专业发展成为广泛的商业部署。今天的NLP也由深度学习驱动,JackClark认为,NLP继承了计算机视觉工作的策略,例如对大型数据库的训练和特定应用程序的微调。他说:「我们看到这些创新非常迅速地流向人工智能的另一个领域。」

JackClark表示,衡量NLP系统的性能正在变得很棘手,学术界一直在研发更为困难的AI测试系统和指标,但无论何种系统总会在六个月内出现新的AI击败它。这份图表显示了两个版本的阅读理解测试SQuAD的表现,人工智能语言模型必须根据一段文本回答多项选择题。2.0版通过包含无法回答的问题来使任务更加困难,模型必须识别这些问题,并且不回答。一个模型在第一个版本上花了25个月才超过人类的性能,但另一个模型只花了10个月就完成了更艰巨的任务。

NLP也存在「种族歧视」

语音识别和文本生成等任务的语言模型总的来说已经非常完善了。但即便在主流的成熟商业NLP系统中仍存在认知偏差,如果这些问题不得到解决,则可能会严重影响这些技术的商业应用。

例如AI系统也存在种族歧视问题,图表显示了几款较为成熟的商业化语音识别程序的错误率。

虽然系统存在认知偏差,但大多数研究人员只注重系统性能,而很少有人会去注意到这种偏差。这个问题在未来很可能会阻碍各种形式的人工智能发展,包括计算机视觉和决策支持工具。

AI就业市场全球化

据LinkedIn数据显示,从2016年到2020年,巴西、印度、加拿大、新加坡和南非的人工智能岗位增长最快。而这并不意味着这些国家的绝对就业机会最多(美国和中国仍占据AI就业机会的首位),但这些国家对人工智能的投入将会对人工智能技术以及整个社会的发展产生积极影响。LinkedIn发现,2020年的全球疫情并未对AI领域的工作岗位招聘造成丝毫影响。

值得注意的是,印度和中国的人才对LinkedIn的应用并不广泛,因此这些国家的人才市场状况在LinkedIn上的数据并不具有充分的代表性。

企业对AI的投资热度「不想停,也不会停」

自2015年以来大量资金持续涌入人工智能领域。2020年,全球企业对人工智能的投资飙升至近680亿美元,比前一年增长40%。

创业狂潮接近尾声

从前面一张图表可以看出,AI领域的企业投资持续增长,但在增长的背后,却是增速逐年放缓。这张图表显示,AI初创企业得到的投资越来越少。虽然疫情可能对初创企业的活动产生了影响,但AI初创企业数量下降的明显趋势始于2018年,从好的方面来看,这似乎是行业正在逐步走向成熟的信号。

新冠病毒带来的影响

虽然人工智能的许多趋势在很大程度上没有受到全球疫情的影响,但这张图表显示,2020年的AI投资更偏向于全球应对新冠病毒中发挥重要作用的单位。制药相关公司投资的激增就很好的说明了这一点。而对教育技术和游戏的投资增长,也与2020年疫情隔离导致人们把更多时间花费在电脑前有直接关系。

十一

风险?有风险吗?

大量企业在电信、金融服务和汽车等行业稳步增加人工智能工具的应用。然而,大多数公司似乎不知道或不关心这项新技术带来的风险。麦肯锡在一项研究中调查了企业对AI应用相关风险的认知,只有网络安全风险受到了半数以上受访者的关注。与人工智能相关的伦理问题,如隐私和公平,是当今人工智能研究领域最热门的话题之一,然而这些问题并未引起企业的足够重视。

十二

AI领域的博士们正在涌入企业

AI领域的学术工作有限,虽然高校增加了本科生和研究生级别的人工智能相关课程,终身制教师职位也相应增加,但学术界仍然无法吸收逐年新增的AI博士。这份图表仅代表北美地区的AI博士毕业生,这些毕业生中的绝大多数正在流向AI企业。

十三

AI的伦理问题

如前所述,很多公司对人工智能的伦理问题重视程度不足,但研究人员对此越来越关心。许多团体正在研究人工智能系统的不透明决策(称为可解释性问题),嵌入偏见和歧视,以及隐私入侵等问题。这份图表显示了人工智能会议上伦理问题的相关论文正在逐年增加,JackClark认为这非常值得高兴。他指出,由于有这么多学生参加这些人工智能会议,几年后,将有大量关注AI伦理的从业者进入行业。

然而,除了会议文件的增加外,在这一问题上业界并没有其他突出的进步。报告强调,人工智能系统中的偏差量化测试才刚刚开始出现。JackClark说,「这些评估体系,就像人工智能科学领域的一个新分支。」

十四

多样性问题(1)

解决人工智能系统中嵌入的偏见和歧视的一种方法是确保构建人工智能系统的群体的多样性。这不是一个激进的概念。然而,报告称,在学术界和行业,人工智能劳动力「仍然以男性为主」。这张图表来自美国计算机研究协会年度调查,数据显示,在北美人工智能相关的博士课程的毕业生中,女性仅占约20%。

十五

多样性问题(2)

来自同一调查的数据讲述了一个关于种族/民族身份的类似故事。这个问题在即将毕业的博士生中似乎相当明显,有许多优秀的科学、技术、工程和数学项目都以女孩和少数族裔为重点。这使我们想到了AI4ALL组织,或许社会可以更加关注这些群体,给他们更多的资助,或者以某种方式参与其中。

参考链接:

https://aiindex.stanford.edu/wp-content/uploads/2021/03/2021-AI-Index-Report_Master.pdf

https://spectrum.ieee.org/tech-talk/artificial-intelligence/machine-learning/the-state-of-ai-in-15-graphs

机器之能面向正在进行数字化转型及智能化升级的各领域产业方,为他们提供高质量信息、研究洞见、数据库、技术供应商调研及对接等服务,帮助他们更好的理解并应用技术。产业方对以上服务有任何需求,都可联系我们。

zhaoyunfeng@jiqizhixin.com

原标题:《15张图表带你速览2021人工智能最新趋势》

阅读原文

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇