新信息技术革命:机遇、挑战和应对
大数据使世界变得更精确。伴随着网络的普遍联结和各种数据传感器的大面积应用,人类于2010年后逐渐进入大数据时代。大数据是高速数字化网络广泛延伸的自然结果,研究显示,过去两年产生的数据,占据了人类有史以来产生数据的90%,且这一趋势还在继续,也就是说,人类正以一种指数化的速度巨量地增加自身的数据总量。大数据时代根本上改变了人类长期以来依靠模糊信息的行为模式。例如,古人判断未来天气,依靠的是各种古谚语和模糊的经验,工业时代后,人们开始较为系统的观测天气,然而受制于数据处理能力,只能定时定点进行数据采集。而大数据时代,可以对大区域范围内每一秒钟的气象状态进行连续观测,从而形成更为精确的天气大数据,做出更精准的天气预测。再比如,长期以来商人对市场需求是通过模糊信息进行预测的,经常会遇到供大于求或者供不应求的现象,因此,传统商业是一个具有较高风险的行业。而大数据时代,商家通过客户数据库,能够精准判断和获取客户的需求信息,从而在生产和进货端就降低市场风险,既增加了利润,也更好满足了消费者需求,全社会的效用收益也得以提升。因此,在大数据时代,每个传统上的自然人或者组织就自然转变为数据人或者数据组织。通过大数据的多维度综合,就可以准确描绘一个人或者组织的行为状态和特质,从而更好的对其进行管理或者服务。
人工智能使世界变得更智慧。人工智能技术已经有了七十多年的历史,但实质性的提高则是在网络和大数据的驱动下实现的。网络发展出了网格计算、并行计算、云计算等快速提高计算能力的方法,而大数据又提供了众多人类行为的精准模板,两者的结合促使人工智能在近年来快速提升。2016年,谷歌公司的AlphaGo程序战胜围棋世界冠军李世石成为标志性事件,此外包括无人驾驶、机器翻译、工业控制、电子竞技等领域,人工智能都展现出了接近甚至超过人类的水平。因此,我们今天正在大踏步地进入人工智能时代。人工智能的意义是极为重大的,它是人类第一次创造出的不依赖人类的非生物性的智慧载体,使得机器第一次不仅能够替代人类的体力劳动,还能够最大限度地替代人类的脑力劳动。通过广泛的网络联结,人工智能可以与各种生产生活中的数字终端结合,也就是说,一切数字设备都可能是智能的,无论是汽车、电视、手机,甚至联结了传感器的一棵树、一朵花,通过脑接口甚至可以让人与动物直接交流。也就是说,不仅计算机变得更加智慧,世间的万物都可能变得更加智慧。更进一步,在仿生学和材料科学的帮助下,人工智能还能够以人类的形态进入到人类社会中去,为人类提供更好的物质产品和各种各样的服务。人类似乎找到了可以源源不断提高智慧和劳动能力的渠道。
总而言之,一个万物皆有智慧的时代,是人类长期以来所追求和梦想的时代,人类历史上长期所追求的那种理想的社会状态,通过人工智能,则第一次浮现在人类的眼前。
新信息技术革命带来转型的巨大挑战
然而,任何一场根本性的技术革命所带来的绝不仅仅是机遇和美好的预期,同时也意味着对原有社会结构和组织以及运行方式的根本性变革,这就带来了转型的巨大挑战。
一切社会个体和组织都要面对逐渐适应行为和结构的网络化挑战。网络对个体和组织产生的挑战很多,然而,其中最根本的挑战是一切社会个体和组织都要逐渐适应网络化的存在和行为方式,这不仅体现在个体和组织的行为上,也体现在组织的结构上。就个体而言,网络化意味着个体的行为要同时适应传统的自然世界的社会生活和网络世界的社会生活的共存状态。在自然世界中,个体满足真实物理需求和实现个体的物理化能力。而在网络世界中,则更大程度上去满足社会交际和精神需求等。随着网络和数字化社会的越来越扩展,仅能够在真实世界中满足的需求和实现功能的领域已经越来越少,除了身体的基本生理需求外,越来越多领域的个体需求和功能,可以同时在网络和真实世界中得到满足和实现。通过网络世界的联结,真实世界也更加紧密。因此,今天和未来的人们,同时生活在物理世界和网络世界的混合社会中。更大的挑战来自于各种组织行为的网络化挑战。企业必须适应通过网络化办公和移动办公的现状,并利用这种分布式带来高效率和低成本。商家必须适应网络化营销,直面从实体店铺向网络店铺转型的挑战。最严峻的挑战来自政府转型,工业时代的政府是一个严密等级结构的庞大科层分工体系。这有其内在必然逻辑,即受制于相对落后的信息能力,只有通过金字塔型的科层结构才能够有效实现大范围的管理运作和通过行政专业化分工提高组织效率。然而在网络时代,一方面,政府可以通过强大的网络能力打通内部的信息壁垒,构建共通共享的政务大数据,促进组织内部的信息流动和资源共享,形成内部高效流通的整体式治理结构。③另一方面,政府也可以通过越来越分布式的信息渠道,加强与社会和市场之间的联系,打破政府的外部边界,构建透明政府,广泛通过多元主体协同的方式实现公共服务职能。同时,对于政府而言,社会越来越扁平化使得政府必须改变传统上“牢牢居于治理中心”的定位,而在法律的框架下与其他主体形成平等的关系,共同促进治理能力的提升。
一切社会主体都将直面暴露行为和隐私的风险挑战。大数据的精准数据采集传输存储和分析能力在更好探究个体和其他社会主体需求的同时,也将个体和各种社会主体的行为和隐私监测并保存下来,并可以被他人或者公众所分析。这构成了今天大数据时代最大的整体性社会风险。在传统时代,人与人之间的自然隔离状态,构成了一道相对安全的自由的屏障。在不损害他人利益的情况下,人可以自由思考和行动,因此,传统时代,隐私是人类自由的基石之一。④而今天,普遍的大数据采集体系使得每一个自然人的几乎所有行动都会被大数据所监控,甚至回到家中也有各种智能语音设备采集用户信息。对于组织也是如此,在传统时代,一个组织和其成员只要大体满足组织的行为要求,而对其内部运作流程无需详细了解。然而,在大数据时代,各种各样的数据渠道,包括组织主动公开和被动探测到的,都使得传统上相对封闭和隐秘的组织运行过程暴露在社会面前。例如,在过去消费者很难了解到企业的生产过程,只要求企业产品质量可靠。然而,现在的消费者和全社会不仅关注企业的最终产品,也关注生产过程是否干净、安全,有没有污染环境,是否虐待劳工等。对于政府则更是如此,传统上即便是政府主动公开政府信息,普通公民也只能得到有限的包括预算、职能、公务员人数等宏观信息,而对于政府内部运作过程知之不详。然而,在今天的社会,公民对政府内部的运作过程是否合法、廉洁、透明等有了更高的要求。因此,社会主体大面积的相互暴露,既是大数据时代的一种客观事实,也是一种系统性的风险。人与人之间、人与组织之间更为密切的相互接触和探究,在提高社会运作效率的同时也加剧了精神的紧张和自由的削弱。这些都是必须慎重对待的问题。
一切社会主体都将面临人工智能的替代竞争挑战。人工智能越来越飞速发展,在提供给人类一个高度美好的未来想象的同时,也投下了一丝阴影。今天的人工智能能力的快速跃升,已经使得人类对人工智能的询问从人工智能能做什么到人工智能不能做什么?那么,一个问题就自然出现,人工智能高度发达的时代,人应该何去何从?根据人工智能的进化趋势,人工智能的提升速度已远高于人类之前的估计。一些研究机构估计,在未来十年,人工智能至少会替代三分之一到一半的劳动岗位,而大约到2050年,人工智能的智慧能力将超过人类。因此,也就是说从现在开始,几乎所有的劳动性岗位都将面临人工智能的替代挑战。⑤当然,人工智能在劳动环节对人类的替代并非坏事,相反是对人类的一种解放。然而,一个基本的事实是,人类几千年来形成的经济和社会系统是深深根植于人类的体力与脑力劳动之上的。产品的生产、商品的交换、服务的提供,无一例外不是建立在人的劳动之上。人工智能的大规模对人类劳动的替代,势必意味着传统基于人类劳动基础上的社会和经济系统,必须实现从单纯的人类劳动到人类与人工智能共同工作甚至绝大部分劳动由人工智能完成的转型。一个严峻的挑战摆在全人类面前,即大面积的劳动人口失去劳动岗位后,应该如何设计出新的经济和社会系统使他们不被飞速进步的新系统所抛弃,大面积的经济福利体系的建立可能是当前面临的最大挑战。此外,诸如包括如何对待人工智能的社会属性和法律地位⑥,人工智能进入社会后的伦理问题,人工智能大量使用产生的人类依赖和退化问题,人工智能引发的两极分化,人工智能引发的少数人对多数人的控制等问题,都会产生重大的社会挑战。
应对新信息技术革命的基本原则和准备策略
显然,新信息技术革命正在推动人类社会进入全新的历史阶段,这既是对全人类文明的一次重大机遇,且任何方式的阻挡都不可能压制新信息技术的不断进步和发展。因此,从现在起,必须适应和抓住机遇,做好减少风险、应对挑战的准备,这包括基本的原则和具体的策略。
就基本的原则而言,要始终坚持三个原则:
原则1:新信息技术的发展和应用要让绝大多数人过得更轻松而不是辛苦。
原则2:新信息技术的发展和应用要让绝大多数人更加自由而不是被奴役。
原则3:新信息技术的发展和应用要让绝大多数人感到更加公平而不是不公。
就第一条而言,新信息技术在极大提高社会生产力的同时,也进一步将人数字化,使得人跟上数字的速度而不是相反,全社会的整体效率大大提高。与此同时,人的工作频率也极大加快,大脑时刻要处理来自各方面的信息,来自于数字化生存的竞争压力在各领域都普遍显现,人工智能的出现更加剧了这种替代焦虑。因此,我们需要反思的是,在不断发展新技术的同时,如何让绝大多数人变得更轻松而不是相反。否则,就违背了发展数字化技术的初衷。
就第二条而言,全方位的数字化联结和大数据监测体系,使得人越来越感受到来自他人和社会的近距离关注,这种心理空间的缩短极大限制而不是扩展了人类自由。因此,用什么样的方式,让数字化转型能够扩大人类的自由,而不只是压缩人类的自由就成为一个突出问题。越来越数字化似乎使得人们更关注网络而减少了真实的活动空间。显然这也违背了发展数字化技术的初衷。
就第三条而言,新信息技术显然存在加剧社会不平等的趋势,例如数字化鸿沟使得相当一部分社会群体难以适应全社会的数字化转型,在未来,这种趋势可能会更加明显。越来越多的数字化场景加剧了人们对数字设备的适应难度,对于网络经济和人工智能的普遍利用也加剧了资本向更少数人集聚,社会中的相当一部分个体可能会感到更加不公平。这都是需要极力避免的。总而言之,新信息技术应该让全社会中的绝大多数人生活得更幸福而不是相反。
从具体的制度准备而言,在以上原则的基础上,当前社会显然应该做好以下的制度准备:首先,对新信息技术采用高度重视和鼓励发展的态度。新信息技术革命无论对于国家还是全社会的发展而言,都是难以估计的重要历史性机遇,必须抓住。其次,进一步加强法律对于个体自由和权利的保护。技术飞速发展的同时,法律和制度也要全力跟上。法律是保护公民自由的最后底线,在公民隐私、公民劳动与休息权等方面,法律要同步跟上甚至能够具有前瞻性地为未来技术的发展规划自由底线。最后,加强对新的经济社会体系的预研和设计。尤其是对于人工智能普遍应用后社会经济系统应该如何运转,如何保障大量非就业人群的生活和发展,必须从当前就进行系统性的规划。
总之,当前正在经历的新信息技术革命是不亚于农业革命与工业革命的人类重大历史性转型。从文明的长远发展而言,当前我国必须牢牢抓住这一历史性机遇,这不仅体现在技术上的探索,也要在配套的制度文明方面做好准备,并为全人类贡献智慧。
【注释】
①[美]道格拉斯·C·诺斯著,陈郁、罗华平译:《经济史中的结构与变迁》,上海:上海人民出版社,1994年,第80—97页。
②刘宏杰、陆浩、张楠、郑晓龙:《基于微博的六度空间理论研究》,《计算机应用研究》,2012年第8期。
③陈国权、皇甫鑫:《在线协作、数据共享与整体性政府——基于浙江省“最多跑一次改革”的分析》,《国家行政学院学报》,2018年第3期。
④马特:《无隐私即无自由——现代情景下的个人隐私保护》,《法学杂志》,2007年第5期。
⑤何哲:《人工智能时代的人类社会经济价值与分配体系初探》,《南京社会科学》,2018年第11期。
⑥贺栩溪:《人工智能的法律主体资格研究》,《电子政务》,2019年第2期。
参考文献
(1)[美]道格拉斯·C·诺斯著,陈郁、罗华平译:《经济史中的结构与变迁》,上海:上海人民出版社,1994年。
(作者为中共中央党校(国家行政学院)公共管理教研部教授)返回搜狐,查看更多
人工智能行业专题报告:挑战与机遇
(报告出品方/作者:中信证券,杨泽原、丁奇)
报告摘要
一、人工智能开启新一轮产业变革
1.1三大支柱支撑,向认知智能迈进
人工智能:通常是指“研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用的一门新的技术科学”。人工智能的发展需要“运算平台+数据资源+算法”。
机器学习:属于人工智能的其中一个领域,通过经验学习优化计算机算法,其根本在于海量数据的训练。
深度学习:在人工神经网络的基础上发展而来,实现了从大数据中自动提取数据特征并设计特征模型,摆脱了传统神经网络算法中需要人工工程进行各层的特征设计的弊端。
三次工业革命均引发人类社会格局发生颠覆性的改变,人工智能有望开启新一轮产业革命
第一次(18世纪60s):蒸汽机成为动力机,解放了生产力;
第二次(19世纪70s):电力得到应用,推动电气、化学、石油等重工业的兴起;
第三次(20世纪40s):进入信息时代。信息时代先后出现了计算机、互联网、移动互联网、物联网等几次技术变革。但部分领域近年来放缓趋势已经开始出现。
1.2资本+政策+需求驱动,产业高速增长
投融资:资本争相涌入
近年来人工智能投融资火热,资本争相涌入。随着AlphaGo等具有较大影响力的应用逐步落地,产业界与资本界均对人工智能前景充满期待,人工智能有望开启新一轮产业革命,大型公司纷纷展开“AI军备竞赛”。
二级市场助推人工智能企业发展。私募市场与二级市场逐渐形成衔接,助推AI企业向下一个阶段发展。在二级市场,最受资本青睐的是行业解决方案和智能风控,其次是服务机器人、ADAS系统和AI芯片,最后是智能影像医疗和智能营销。近期,伴随部分AI独角兽IPO获受理,2021年有望迎来AI企业上市潮,二级市场助推AI企业发展。
政策端:政策大力支持
确立“三步走”目标,加速人工智能深度应用创新建设,全面推动AI产业落地。国务院2017年《新一代人工智能发展规划》中确立“三步走”目标,第一步,到2020年人工智能总体技术和应用与世界先进水平同步;第二步,到2025年人工智能基础理论实现重大突破、技术与应用部分达到世界领先水平;第三步,到2030年人工智能理论、技术与应用总体达到世界领先水平。
加强人工智能与经济社会深度融合,积累经验做法、标杆案例。科技部2019年8月发布《国家新一代人工智能创新发展试验区建设工作指引》,指出要充分发挥地方在试验区建设中的主体作用,3年内形成一批人工智能与经济社会发展深度融合的典型模式,积累一批可复制可推广的经验做法,打造一批具有重大引领带动作用的人工智能创新高地。
明确“新基建”,注入“新动能”。受疫情影响,数字经济发展迎来关键窗口期。2020年3月,中央明确“新基建”进度,加固、升级人工智能长期发展创新的数字底座,开启AI发展新空间。
应用场景:落地场景丰富
AI的最终任务是实现人工智能在各垂直行业的场景化落地。从全球看,人工智能企业主要集中在AI+(各个垂直领域)、大数据和数据服务、视觉、智能机器人领域,其中AI+企业主要集中在商业(主要包含市场营销和客户管理领域)、医疗健康、金融领域。
从中国看,各垂直领域的AI企业同样集中在各类垂直行业中,渗透较多的包括医疗健康、金融、商业、教育和安防等领域,根据中国信通院数据,其中医疗健康领域占比最大达到22%,其次在金融和智能商业化领域占比分别达到14%和11%。
二、人工智能产业链各环节机遇涌现
人工智能产业链包括基础层、技术层和应用层:
1)基础层是指对AI提供支撑性服务的硬件平台,包括芯片、传感器、数据和服务、生物识别、云计算等;
2)技术层是指实现计算机感知和认知的程序算法,主要包括机器学习、计算机视觉、语音及自然语言处理等;
3)应用层是指将人工智能是现在垂直领域的应用,包括工业机器人、服务机器人、智能医疗、智能金融等。
前文我们提到了一个观点——“运算平台+数据资源+算法”为人工智能提供三大支柱,接下来我们将继续沿着这条线,分析人工智能产业链不同层次的投资机会。
三、人工智能的挑战与机遇:能者为王
挑战一:AI未来发展前景如何?
挑战:人工智能的发展呈现螺旋向上趋势。计算能力上,经历了早期计算、LISP机器、GPU/TPU的发展;算法演化上,经历了Perceptron、专家系统、BP、深度学习的技术发展;核心数据上,经历了从少量到大量再到海量的递进;实用效果上,历经感知、认识、决策的步步推进。
机遇一:技术持续创新迭代推动应用深化
以机器学习为主流方向的人工智能基础技术包括有监督学习、无监督学习、强化学习等技术,但这些技术只是针对部分特定场景,比如说分类、聚类、求最优解等,而现实世界往往是复杂的,深度强化学习等新兴技术的快速发展推动AI向更接近人类思维的方向进步,解决更复杂的认知智能问题。
深度强化学习:强化学习与深度学习结合。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。
挑战二:数据从何而来?
挑战:人工智能算法训练需要大量数据资源。例:百度人脸识别系统在2015年FDDB检测数据集和LFW识别数据集上的实验结果均获得世界最高的准确率。ImageNet数据库包括1000类150万张图片。百度使用了200万类2亿张图片,数量上是ImageNet数据库的一百多倍。
机遇二:产品+技术+场景完整方案形成数据闭环
大数据:人工智能发展的三大重要基础之一(算力、算法、数据)。大数据的作用包括挖掘、传输、存储、分析、分类等;大数据是人工智能“思考”和“决策”的重要参考,提供数据支持;物联网是促进大数据和AI结合的重要方式,大数据和AI的结合反哺物联网应用的发展。
AI公司有望依靠产品+技术+场景的完整解决方案,构筑数据闭环。2B/2C提供庞大的数据来源;物联网使得数据形式更加多样化;客户资源深厚的头部公司具备广泛的数据基础,以BATH为例,利用庞大的数据量和技术积累,切入AI领域,为中小企业提供数据来源、算力等,助力AI普惠
挑战三:商业化路在何方?
挑战:初创企业商业模式路在何方?从软件核心知识产权、定价模式、数据所有权等维度看,形式较为多样化,当前商业模式未成定局。
机遇三:实现优势赛道控盘突破
以AI技术为切入点,推动“平台+赛道”战略布局,控盘教育等核心赛道。
1)教育:2B2C闭环协同助力打造AI+教育领军,2B产品包括智慧课堂、智慧校园及区域教育云平台等,2C产品包括智能学习机等;
2)政法:智能庭审、辅助判案等产品各地持续推广;
3)医疗:智医助理等AI产品在各地区域化复制落地。
以计算机视觉为核心技术驱动,应用规模化落地。
1)平台:自主研发并建立了全球顶级的深度学习平台和超算中心。
2)应用:深入探索多个垂直行业领域,业务涵盖智能手机、互联网娱乐、汽车、智慧城市、以及教育、医疗、零售、广告、金融、地产等多个行业。
报告节选
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库官网】。
人工智能的创新发展与社会影响
党的十八大以来,习近平总书记把创新摆在国家发展全局的核心位置,高度重视人工智能发展,多次谈及人工智能的重要性,为人工智能如何赋能新时代指明了方向。2018世界人工智能大会9月17日在上海开幕,习总书记致信祝贺并强调指出人工智能发展应用将有力提高经济社会发展智能化水平,有效增强公共服务和城市管理能力。深入学习领会习总书记关于人工智能的一系列重要论述,务实推进我国《新一代人工智能发展规划》,有效规避人工智能“鸿沟”,着力收获人工智能“红利”,对建设世界科技强国、实现“两个一百年”的奋斗目标具有重大战略意义。
一、引言
1956年人工智能(ArtificialIntelligence,简称AI)的概念被正式提出,标志着人工智能学科的诞生,其发展目标是赋予机器类人的感知、学习、思考、决策和行动等能力。经过60多年的发展,人工智能已取得突破性进展,在经济社会各领域开始得到广泛应用并形成引领新一轮产业变革之势,推动人类社会进入智能化时代。美国、日本、德国、英国、法国、俄罗斯等国家都制定了发展人工智能的国家战略,我国也于2017年发布了《新一代人工智能发展规划》,发改委、工信部、科技部、教育部等国家部委和北京、上海、广东、江苏等地政府也相继出台推动人工智能发展的相关政策文件,社会各界对人工智能的重大战略意义已形成广泛共识。
跟其他高科技一样,人工智能也是一把双刃剑。如何认识人工智能的社会影响,也有“天使派”和“魔鬼派”之分。“天使派”认为,人工智能领域的科技创新和成果应用取得重大突破,有望引领第四次工业革命,对社会、经济、军事等领域将产生变革性影响,在制造、交通、教育、医疗、服务等方面可以造福人类;“魔鬼派”认为,人工智能是人类的重大威胁,比核武器还危险,有可能引发第三次世界大战。2018年2月,牛津大学、剑桥大学和OpenAI公司等14家机构共同发布题为《人工智能的恶意使用:预测、预防和缓解》的报告,指出人工智能可能给人类社会带来数字安全、物理安全和政治安全等潜在威胁,并给出了一些建议来减少风险。
总体上看,已过花甲之年的人工智能当前的发展具有“四新”特征:以深度学习为代表的人工智能核心技术取得新突破、“智能+”模式的普适应用为经济社会发展注入新动能、人工智能成为世界各国竞相战略布局的新高地、人工智能的广泛应用给人类社会带来法律法规、道德伦理、社会治理等方面一系列的新挑战。因此人工智能这个机遇与挑战并存的新课题引起了全球范围内的广泛关注和高度重视。虽然人工智能未来的创新发展还存在不确定性,但是大家普遍认可人工智能的蓬勃兴起将带来新的社会文明,将推动产业变革,将深刻改变人们的生产生活方式,将是一场影响深远的科技革命。
为了客观认识人工智能的本质内涵和创新发展,本报告在简要介绍人工智能基本概念与发展历程的基础上,着重分析探讨人工智能的发展现状和未来趋势,试图揭示人工智能的真实面貌。很显然,在当下人工智能蓬勃发展的历史浪潮中如何选择中国路径特别值得我们深入思考和探讨。因此,本报告最后就我国人工智能发展态势、存在问题和对策建议也进行了阐述。
二、人工智能的发展历程与启示
1956年夏,麦卡锡(JohnMcCarthy)、明斯基(MarvinMinsky)、罗切斯特(NathanielRochester)和香农(ClaudeShannon)等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能”这一概念,标志着人工智能学科的诞生。人工智能的目标是模拟、延伸和扩展人类智能,探寻智能本质,发展类人智能机器。人工智能充满未知的探索道路曲折起伏,如何描述1956年以来60余年的人工智能发展历程,学术界可谓仁者见仁、智者见智。我们将人工智能60余年的发展历程划分为以下6个阶段:
一是起步发展期:1956年-20世纪60年代初。人工智能概念在1956年首次被提出后,相继取得了一批令人瞩目的研究成果,如机器定理证明、跳棋程序、LISP表处理语言等,掀起了人工智能发展的第一个高潮。
二是反思发展期:60年代-70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,人们开始尝试更具挑战性的任务,并提出了一些不切实际的研发目标。然而,接二连三的失败和预期目标的落空(例如无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等),使人工智能的发展走入了低谷。
三是应用发展期:70年代初-80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功,推动人工智能走入了应用发展的新高潮。
四是低迷发展期:80年代中-90年代中。随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。
五是稳步发展期:90年代中-2010年。由于网络技术特别是互联网技术的发展,信息与数据的汇聚不断加速,互联网应用的不断普及加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。1997年IBM深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫,2008年IBM提出“智慧地球”的概念,这些都是这一时期的标志性事件。
六是蓬勃发展期:2011年-至今。随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器(GraphicsProcessingUnit,简称GPU)等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越科学与应用之间的“技术鸿沟”,图像分类、语音识别、知识问答、人机对弈、无人驾驶等具有广阔应用前景的人工智能技术突破了从“不能用、不好用”到“可以用”的技术瓶颈,人工智能发展进入爆发式增长的新高潮。
通过总结人工智能发展历程中的经验和教训,我们可以得到以下启示:
(一)尊重学科发展规律是推动学科健康发展的前提。科学技术的发展有其自身的规律,顺其者昌,违其者衰。人工智能学科发展需要基础理论、数据资源、计算平台、应用场景的协同驱动,当条件不具备时很难实现重大突破。
(二)基础研究是学科可持续发展的基石。加拿大多伦多大学杰弗里·辛顿(GeoffreyHinton)教授坚持研究深度神经网络30年,奠定人工智能蓬勃发展的重要理论基础。谷歌的DeepMind团队长期深入研究神经科学启发的人工智能等基础问题,取得了阿尔法狗等一系列重大成果。
(三)应用需求是科技创新的不竭之源。引领学科发展的动力主要来自于科学和需求的双轮驱动。人工智能发展的驱动力除了知识与技术体系内在矛盾外,贴近应用、解决用户需求是创新的最大源泉与动力。比如专家系统人工智能实现了从理论研究走向实际应用的突破,近些年来安防监控、身份识别、无人驾驶、互联网和物联网大数据分析等实际应用需求带动了人工智能的技术突破。
(四)学科交叉是创新突破的“捷径”。人工智能研究涉及信息科学、脑科学、心理科学等,上世纪50年代人工智能的出现本身就是学科交叉的结果。特别是脑认知科学与人工智能的成功结合,带来了人工智能神经网络几十年的持久发展。智能本源、意识本质等一些基本科学问题正在孕育重大突破,对人工智能学科发展具有重要促进作用。
(五)宽容失败应是支持创新的题中应有之义。任何学科的发展都不可能一帆风顺,任何创新目标的实现都不会一蹴而就。人工智能60余载的发展生动地诠释了一门学科创新发展起伏曲折的历程。可以说没有过去发展历程中的“寒冬”就没有今天人工智能发展新的春天。
(六)实事求是设定发展目标是制定学科发展规划的基本原则。达到全方位类人水平的机器智能是人工智能学科宏伟的终极目标,但是需要根据科技和经济社会发展水平来设定合理的阶段性研究目标,否则会有挫败感从而影响学科发展,人工智能发展过程中的几次低谷皆因不切实际的发展目标所致。
三、人工智能的发展现状与影响
人工智能经过60多年的发展,理论、技术和应用都取得了重要突破,已成为推动新一轮科技和产业革命的驱动力,深刻影响世界经济、政治、军事和社会发展,日益得到各国政府、产业界和学术界的高度关注。从技术维度来看,人工智能技术突破集中在专用智能,但是通用智能发展水平仍处于起步阶段;从产业维度来看,人工智能创新创业如火如荼,技术和商业生态已见雏形;从社会维度来看,世界主要国家纷纷将人工智能上升为国家战略,人工智能社会影响日益凸显。
(一)专用人工智能取得重要突破。从可应用性看,人工智能大体可分为专用人工智能和通用人工智能。面向特定领域的人工智能技术(即专用人工智能)由于任务单一、需求明确、应用边界清晰、领域知识丰富、建模相对简单,因此形成了人工智能领域的单点突破,在局部智能水平的单项测试中可以超越人类智能。人工智能的近期进展主要集中在专用智能领域,统计学习是专用人工智能走向实用的理论基础。深度学习、强化学习、对抗学习等统计机器学习理论在计算机视觉、语音识别、自然语言理解、人机博弈等方面取得成功应用。例如,阿尔法狗在围棋比赛中战胜人类冠军,人工智能程序在大规模图像识别和人脸识别中达到了超越人类的水平,语音识别系统5.1%的错误率比肩专业速记员,人工智能系统诊断皮肤癌达到专业医生水平,等等。
(二)通用人工智能尚处于起步阶段。人的大脑是一个通用的智能系统,能举一反三、融会贯通,可处理视觉、听觉、判断、推理、学习、思考、规划、设计等各类问题,可谓“一脑万用”。真正意义上完备的人工智能系统应该是一个通用的智能系统。虽然包括图像识别、语音识别、自动驾驶等在内的专用人工智能领域已取得突破性进展,但是通用智能系统的研究与应用仍然是任重而道远,人工智能总体发展水平仍处于起步阶段。美国国防高级研究计划局(DefenseAdvancedResearchProjectsAgency,简称DARPA)把人工智能发展分为三个阶段:规则智能、统计智能和自主智能,认为当前国际主流人工智能水平仍然处于第二阶段,核心技术依赖于深度学习、强化学习、对抗学习等统计机器学习,AI系统在信息感知(Perceiving)、机器学习(Learning)等智能水平维度进步显著,但是在概念抽象(Abstracting)和推理决策(Reasoning)等方面能力还很薄弱。总体上看,目前的人工智能系统可谓有智能没智慧、有智商没情商、会计算不会“算计”、有专才无通才。因此,人工智能依旧存在明显的局限性,依然还有很多“不能”,与人类智慧还相差甚远。
(三)人工智能创新创业如火如荼。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义,纷纷调整发展战略。比如,在其2017年的年度开发者大会上,谷歌明确提出发展战略从“MobileFirst”(移动优先)转向“AIFirst”(AI优先);微软2017财年年报首次将人工智能作为公司发展愿景。人工智能领域处于创新创业的前沿,麦肯锡报告2016年全球人工智能研发投入超300亿美元并处于高速增长,全球知名风投调研机构CBInsights报告显示2017年全球新成立人工智能创业公司1100家,人工智能领域共获得投资152亿美元,同比增长141%。
(四)创新生态布局成为人工智能产业发展的战略高地。信息技术(IT)和产业的发展史就是新老IT巨头抢滩布局IT创新生态的更替史。例如,传统信息产业IT(InformationTechnology)代表企业有微软、英特尔、IBM、甲骨文等,互联网和移动互联网IT(InternetTechnology)代表企业有谷歌、苹果、脸书、亚马逊、阿里巴巴、腾讯、百度等,目前智能科技IT(IntelligentTechnology)的产业格局还没有形成垄断,因此全球科技产业巨头都在积极推动AI技术生态的研发布局,全力抢占人工智能相关产业的制高点。人工智能创新生态包括纵向的数据平台、开源算法、计算芯片、基础软件、图形处理GPU服务器等技术生态系统和横向的智能制造、智能医疗、智能安防、智能零售、智能家居等商业和应用生态系统。在技术生态方面,人工智能算法、数据、图形处理器(GraphicsProcessingUnit,简称GPU)/张量处理器(TensorProcessingUnit,简称TPU)/神经网络处理器(NeuralnetworkProcessingUnit,NPU)计算、运行/编译/管理等基础软件已有大量开源资源,例如谷歌的TensorFlow第二代人工智能学习系统、脸书的PyTorch深度学习框架、微软的DMTK分布式学习工具包、IBM的SystemML开源机器学习系统等;此外谷歌、IBM、英伟达、英特尔、苹果、华为、中国科学院等积极布局人工智能领域的计算芯片。在人工智能商业和应用生态布局方面,“智能+X”成为创新范式,例如“智能+制造”、“智能+医疗”、“智能+安防”等,人工智能技术向创新性的消费场景和不同行业快速渗透融合并重塑整个社会发展,这是人工智能作为第四次技术革命关键驱动力的最主要表现方式。人工智能商业生态竞争进入白热化,例如智能驾驶汽车领域的参与者既有通用、福特、奔驰、丰田等传统龙头车企,又有互联网造车者如谷歌、特斯拉、优步、苹果、百度等新贵。
(五)人工智能上升为世界主要国家的重大发展战略。人工智能正在成为新一轮产业变革的引擎,必将深刻影响国际产业竞争格局和一个国家的国际竞争力。世界主要发达国家纷纷把发展人工智能作为提升国际竞争力、维护国家安全的重大战略,加紧积极谋划政策,围绕核心技术、顶尖人才、标准规范等强化部署,力图在新一轮国际科技竞争中掌握主导权。无论是德国的“工业4.0”、美国的“工业互联网”、日本的“超智能社会”、还是我国的“中国制造2025”等重大国家战略,人工智能都是其中的核心关键技术。2017年7月,国务院发布了《新一代人工智能发展规划》,开启了我国人工智能快速创新发展的新征程。
(六)人工智能的社会影响日益凸显。人工智能的社会影响是多元的,既有拉动经济、服务民生、造福社会的正面效应,又可能出现安全失控、法律失准、道德失范、伦理失常、隐私失密等社会问题,以及利用人工智能热点进行投机炒作从而存在泡沫风险。首先,人工智能作为新一轮科技革命和产业变革的核心力量,促进社会生产力的整体跃升,推动传统产业升级换代,驱动“无人经济”快速发展,在智能交通、智能家居、智能医疗等民生领域发展积极正面影响。与此同时,我们也要看到人工智能引发的法律、伦理等问题日益凸显,对当下的社会秩序及公共管理体制带来了前所未有的新挑战。例如,2016年欧盟委员会法律事务委员会提交一项将最先进的自动化机器人身份定位为“电子人(electronicpersons)”的动议,2017年沙特阿拉伯授予机器人“索菲亚”公民身份,这些显然冲击了传统的民事主体制度。那么,是否应该赋予人工智能系统法律主体资格?另外在人工智能新时代,个人信息和隐私保护、人工智能创作内容的知识产权、人工智能歧视和偏见、无人驾驶系统的交通法规、脑机接口和人机共生的科技伦理等问题都需要我们从法律法规、道德伦理、社会管理等多个角度提供解决方案。
由于人工智能与人类智能密切关联且应用前景广阔、专业性很强,容易造成人们的误解,也带来了不少炒作。例如,有些人错误地认为人工智能就是机器学习(深度学习),人工智能与人类智能是零和博弈,人工智能已经达到5岁小孩的水平,人工智能系统的智能水平即将全面超越人类水平,30年内机器人将统治世界,人类将成为人工智能的奴隶,等等。这些错误认识会给人工智能的发展带来不利影响。还有不少人对人工智能预期过高,以为通用智能很快就能实现,只要给机器人发指令就可以干任何事。另外,有意炒作并通过包装人工智能概念来谋取不当利益的现象时有发生。因此,我们有义务向社会大众普及人工智能知识,引导政府、企业和广大民众科学客观地认识和了解人工智能。
四、人工智能的发展趋势与展望
人工智能经过六十多年的发展突破了算法、算力和算料(数据)等“三算”方面的制约因素,拓展了互联网、物联网等广阔应用场景,开始进入蓬勃发展的黄金时期。从技术维度看,当前人工智能处于从“不能用”到“可以用”的技术拐点,但是距离“很好用”还有数据、能耗、泛化、可解释性、可靠性、安全性等诸多瓶颈,创新发展空间巨大,从专用到通用智能,从机器智能到人机智能融合,从“人工+智能”到自主智能,后深度学习的新理论体系正在酝酿;从产业和社会发展维度看,人工智能通过对经济和社会各领域渗透融合实现生产力和生产关系的变革,带动人类社会迈向新的文明,人类命运共同体将形成保障人工智能技术安全、可控、可靠发展的理性机制。总体而言,人工智能的春天刚刚开始,创新空间巨大,应用前景广阔。
(一)从专用智能到通用智能。如何实现从狭义或专用人工智能(也称弱人工智能,具备单一领域智能)向通用人工智能(也称强人工智能,具备多领域智能)的跨越式发展,既是下一代人工智能发展的必然趋势,也是国际研究与应用领域的挑战问题。2016年10月美国国家科学技术委员会发布了《国家人工智能研究与发展战略计划》,提出在美国的人工智能中长期发展策略中要着重研究通用人工智能。DeepMind创始人戴密斯·哈萨比斯(DemisHassabis)提出朝着“创造解决世界上一切问题的通用人工智能”这一目标前进。微软在2017年7月成立了通用人工智能实验室,100多位感知、学习、推理、自然语言理解等方面的科学家参与其中。
(二)从人工智能到人机混合智能。人工智能的一个重要研究方向就是借鉴脑科学和认知科学的研究成果,研究从智能产生机理和本质出发的新型智能计算模型与方法,实现具有脑神经信息处理机制和类人智能行为与智能水平的智能系统。在美国、欧盟、日本等国家和地区纷纷启动的脑计划中,类脑智能已成为核心目标之一。英国工程与自然科学研究理事会EPSRC发布并启动了类脑智能研究计划。人机混合智能旨在将人的作用或认知模型引入到人工智能系统中,提升人工智能系统的性能,使人工智能成为人类智能的自然延伸和拓展,通过人机协同更加高效地解决复杂问题。人机混合智能得到了我国新一代人工智能规划、美国脑计划、脸书(脑机语音文本界面)、特斯拉汽车创始人埃隆·马斯克(人脑芯片嵌入和脑机接口)等的高度关注。
(三)从“人工+智能”到自主智能系统。当前人工智能的研究集中在深度学习,但是深度学习的局限是需要大量人工干预:人工设计深度神经网络模型、人工设定应用场景、人工采集和标注大量训练数据(非常费时费力)、用户需要人工适配智能系统等。因此已有科研人员开始关注减少人工干预的自主智能方法,提高机器智能对环境的自主学习能力。例如阿法元从零开始,通过自我对弈强化学习实现围棋、国际象棋、日本将棋的“通用棋类AI”。在人工智能系统的自动化设计方面,2017年谷歌提出的自动化学习系统(AutoML)试图通过自动创建机器学习系统降低AI人员成本。
(四)人工智能将加速与其他学科领域交叉渗透。人工智能本身是一门综合性的前沿学科和高度交叉的复合型学科,研究范畴广泛而又异常复杂,其发展需要与计算机科学、数学、认知科学、神经科学和社会科学等学科深度融合。随着超分辨率光学成像、光遗传学调控、透明脑、体细胞克隆等技术的突破,脑与认知科学的发展开启了新时代,能够大规模、更精细解析智力的神经环路基础和机制,人工智能将进入生物启发的智能阶段,依赖于生物学、脑科学、生命科学和心理学等学科的发现,将机理变为可计算的模型,同时人工智能也会促进脑科学、认知科学、生命科学甚至化学、物理、材料等传统科学的发展。例如,2018年美国麻省理工学院启动的“智能探究计划”(MITIntelligenceQuest)就联合了五大学院进行协同攻关。
(五)人工智能产业将蓬勃发展。随着人工智能技术的进一步成熟以及政府和产业界投入的日益增长,人工智能应用的云端化将不断加速,全球人工智能产业规模在未来十年将进入高速增长期。例如,2016年9月,咨询公司埃森哲发布报告指出,人工智能技术的应用将为经济发展注入新动力,在现有基础上能够提高劳动生产率40%;美、日、英、德、法等12个发达国家(现占全球经济总量的一半)到2035年,年经济增长率平均可以翻一番。2018年麦肯锡的研究报告表明到2030年人工智能新增经济规模将达到13万亿美元。
(六)人工智能将推动人类进入普惠型智能社会。“人工智能+X”的创新模式将随着技术和产业的发展日趋成熟,对生产力和产业结构产生革命性影响,并推动人类进入普惠型智能社会。2017年国际数据公司IDC在《信息流引领人工智能新时代》白皮书中指出未来五年人工智能提升各行业运转效率,其中教育业提升82%,零售业71%,制造业64%,金融业58%。我国经济社会转型升级对人工智能有重大需求,在消费场景和行业应用的需求牵引下,需要打破人工智能的感知瓶颈、交互瓶颈和决策瓶颈,促进人工智能技术与社会各行各业的融合提升,建设若干标杆性的应用场景创新,实现低成本、高效益、广范围的普惠型智能社会。
(七)人工智能领域的国际竞争将日趋激烈。“未来谁率先掌握人工智能,谁就能称霸世界”。2018年4月,欧盟委员会计划2018-2020年在人工智能领域投资240亿美元;法国总统在2018年5月宣布《法国人工智能战略》,目的是迎接人工智能发展的新时代,使法国成为人工智能强国;2018年6月,日本《未来投资战略》重点推动物联网建设和人工智能的应用。世界军事强国已逐步形成以加速发展智能化武器装备为核心的竞争态势,例如美国特朗普政府发布的首份《国防战略》报告即提出谋求通过人工智能等技术创新保持军事优势,确保美国打赢未来战争;俄罗斯2017年提出军工拥抱“智能化”,让导弹和无人机这样的“传统”兵器威力倍增。
(八)人工智能的社会学将提上议程。水能载舟,亦能覆舟。任何高科技也都是一把双刃剑。随着人工智能的深入发展和应用的不断普及,其社会影响日益明显。人工智能应用得当、把握有度、管理规范,就能有效控制负面风险。为了确保人工智能的健康可持续发展并确保人工智能的发展成果造福于民,需要从社会学的角度系统全面地研究人工智能对人类社会的影响,深入分析人工智能对未来经济社会发展的可能影响,制定完善的人工智能法律法规,规避可能风险,确保人工智能的正面效应。2017年9月,联合国犯罪和司法研究所(UNICRI)决定在海牙成立第一个联合国人工智能和机器人中心,规范人工智能的发展。2018年4月,欧洲25个国家签署了《人工智能合作宣言》,从国家战略合作层面来推动人工智能发展,确保欧洲人工智能研发的竞争力,共同面对人工智能在社会、经济、伦理及法律等方面的机遇和挑战。
五、我国人工智能的发展态势与思考
我国当前人工智能发展的总体态势良好。中国信通院联合高德纳咨询公司(Gartner)于2018年9月发布的《2018世界人工智能产业发展蓝皮书》报告统计,我国(不含港澳台地区)人工智能企业总数位列全球第二(1040家),仅次于美国(2039家)。在人工智能总体水平和应用方面,我国也处于国际前列,发展潜力巨大,有望率先突破成为全球领跑者。但是我们也要清醒地看到,我国人工智能发展存在过热和泡沫化风险,特别在基础研究、技术体系、应用生态、创新人才、法律规范等方面仍然存在不少问题。总体而言,我国人工智能发展现状可以用“高度重视,态势喜人,差距不小,前景看好”来概括。
一是高度重视。党和国家高度重视并大力发展人工智能。党的十八大以来,习近平总书记把创新摆在国家发展全局的核心位置,高度重视人工智能发展,多次谈及人工智能的重要性,为人工智能如何赋能新时代指明方向。2016年7月习总书记明确指出,人工智能技术的发展将深刻改变人类社会生活,改变世界,应抓住机遇,在这一高技术领域抢占先机。在党的十九大报告中,习总书记强调“要推动互联网、大数据、人工智能和实体经济深度融合”。在2018年两院院士大会上,习总书记再次强调要“推进互联网、大数据、人工智能同实体经济深度融合,做大做强数字经济”。在2017年和2018年的《政府工作报告》中,李克强总理都提到了要加强新一代人工智能发展。2017年7月,国务院发布了《新一代人工智能发展规划》,将新一代人工智能放在国家战略层面进行部署,描绘了面向2030年的我国人工智能发展路线图,旨在构筑人工智能先发优势,把握新一轮科技革命战略主动,人工智能将成为今后一段时期的国家重大战略。发改委、工信部、科技部、教育部、中央网信办等国家部委和北京、上海、广东、江苏、浙江等地方政府都推出了发展人工智能的鼓励政策。
二是态势喜人。根据2017年爱思唯尔(Elsevier)文献数据库SCOPUS统计结果,我国在人工智能领域发表的论文数量已居世界第一。从2012年开始,我国在人工智能领域新增专利数量已经开始超越美国。据清华大学发布的《中国人工智能发展报告2018》统计,我国已成全球人工智能投融资规模最大国家,我国人工智能企业在人脸识别、语音识别、安防监控、智能音箱、智能家居等人工智能应用领域处于国际前列。近两年,清华大学、北京大学、中国科学院大学、浙江大学、上海交通大学、南京大学等高校纷纷成立人工智能学院。2015年开始的中国人工智能大会(CCAI)已连续成功召开四届、规模不断扩大,人工智能领域的教育、科研与学术活动层出不穷。
三是差距不小。我国人工智能在基础研究、原创成果、顶尖人才、技术生态、基础平台、标准规范等方面距离世界领先水平还存在较大差距。英国牛津大学2018年的一项研究报告指出中国的人工智能发展能力大致为美国的一半水平。目前我国在人工智能前沿理论创新方面总体上尚处于“跟跑”地位,大部分创新偏重于技术应用,存在“头重脚轻”的不均衡现象。在Top700全球AI人才中,中国虽然名列第二,但入选人数远远低于占一半数量的美国。据领英《全球AI领域人才报告》统计,截至2017年一季度全球人工智能领域专业技术人才数量超过190万,其中美国超过85万,我国仅超过5万人,排名全球第7位。2018年市场研究顾问公司CompassIntelligence对全球100多家AI计算芯片企业进行了排名,我国没有一家企业进入前十。另外,我国人工智能开源社区和技术生态布局相对滞后,技术平台建设力度有待加强,国际影响力有待提高。我国参与制定人工智能国际标准的积极性和力度不够,国内标准制定和实施也较为滞后。我国制定完善人工智能相关法律法规的进程需要加快,对可能产生的社会影响还缺少深度分析。
四是前景看好。我国发展人工智能具有市场规模、应用场景、数据资源、人力资源、智能手机普及、资金投入、国家政策支持等多方面的综合优势,人工智能发展前景看好。全球顶尖管理咨询公司埃森哲于2017年发布的《人工智能:助力中国经济增长》报告显示,到2035年人工智能有望推动中国劳动生产率提高27%。我国发布的《新一代人工智能发展规划》提出到2030年,人工智能核心产业规模超过1万亿元,带动相关产业规模超过10万亿元。在我国未来的发展征程中,“智能红利”将有望弥补人口红利的不足。
人类社会已开始迈入智能化时代,人工智能引领社会发展是大势所趋,不可逆转。经历六十余年积累后,人工智能开始进入爆发式增长的红利期。伴随着人工智能自身的创新发展和向经济社会的全面渗透,这个红利期将持续相当长的时期。现在是我国加强人工智能布局、收获人工智能红利、引领智能时代的重大历史机遇期,如何在人工智能蓬勃发展的浪潮中选择好中国路径、抢抓中国机遇、展现中国智慧需要深入思考。
(一)树立理性务实的发展理念。围棋人机大战中阿尔法狗战胜李世石后,社会大众误以为人工智能已经无所不能,一些地方政府、社会企业、风险资金因此不切实际一窝蜂发展人工智能产业,一些别有用心的机构则有意炒作并通过包装人工智能概念来谋取不当利益。这种“一拥而上、一哄而散”的跟风行为不利于人工智能的健康可持续发展。任何事物的发展不可能一直处于高位,有高潮必有低谷,这是客观规律。根据高德纳咨询公司发布的技术发展曲线,当前智能机器人、认知专家顾问、机器学习、自动驾驶等人工智能热门技术与领域正处于期望膨胀期,但是通用人工智能及人工智能的整体发展仍处于初步阶段,人工智能还有很多“不能”,实现机器在任意现实环境的自主智能和通用智能仍然需要中长期理论和技术积累,并且人工智能对工业、交通、医疗等传统领域的渗透和融合是个长期过程,很难一蹴而就。因此发展人工智能不能以短期牟利为目的,要充分考虑到人工智能技术的局限性,充分认识到人工智能重塑传统产业的长期性和艰巨性,理性分析人工智能发展需求,理性设定人工智能发展目标,理性选择人工智能发展路径,并务实推进人工智能发展举措,只有这样才能确保人工智能健康可持续发展。
(二)加强基础扎实的原创研究。人工智能前沿基础理论是人工智能技术突破、行业革新、产业化推进的基石。在此发展的临界点,要想取得最终的话语权,必须在人工智能基础理论和前沿技术方面取得重大突破。根据2017年爱思唯尔文献数据库SCOPUS统计结果,尽管我国在人工智能领域发表的论文数量已经排名世界第一,但加权引文影响力则只排名34位。为了客观评价我国在人工智能基础研究方面的整体实力,我们搜索了SCI期刊、神经信息处理系统大会(ConferenceonNeuralInformationProcessingSystems,简称NIPS)等主流人工智能学术会议关于通用智能、深度学习、类脑智能、脑智融合、人机博弈等关键词的论文统计情况,可以清楚看到在人工智能前沿方向中国与美国相比基础实力存在巨大差距:在高质量论文数量方面(按中科院划定的SCI一区论文标准统计),美国是中国的5.34倍(1325:248);在人才储备方面(SCI论文通讯作者),美国是中国的2.12倍(4804:2267)。
我国应对标国际最高水平,建设面向未来的人工智能基础科学研究中心,重点发展原创性、基础性、前瞻性、突破性的人工智能科学。应该鼓励科研人员瞄准人工智能学科前沿方向开展引领性原创科学研究,通过人工智能与脑认知、神经科学、心理学等学科的交叉融合,重点聚焦人工智能领域的重大基础性科学问题,形成具有国际影响力的人工智能原创理论体系,为构建我国自主可控的人工智能技术创新生态提供领先跨越的理论支撑。
(三)构建自主可控的创新生态。美国谷歌、IBM、微软、脸书等企业在AI芯片、服务器、操作系统、开源算法、云服务、无人驾驶等方面积极构建创新生态、抢占创新高地,已经在国际人工智能产业格局中占据先机。我国人工智能开源社区和技术创新生态布局相对滞后,技术平台建设力度有待加强,国际影响力有待提高。美国对中兴通讯发禁令一事充分说明自主可控“核高基”技术的重要性,我国应该吸取在核心电子器件、高端通用芯片及基础软件方面依赖进口的教训,避免重蹈覆辙,着力防范人工智能时代“空心化”风险,系统布局并重点发展人工智能领域的“新核高基”:“新”指新型开放创新生态,如军民融合、产学研融合等;“核”指核心关键技术与器件,如先进机器学习技术、鲁棒模式识别技术、低功耗智能计算芯片等;“高”指高端综合应用系统与平台,如机器学习软硬件平台、大型数据平台等;“基”指具有重大原创意义和技术带动性的基础理论与方法,如脑机接口、类脑智能等。
另外,我们需要重视人工智能技术标准的建设、产品性能与系统安全的测试。特别是我国在人工智能技术应用方面走在世界前列,在人工智能国际标准制定方面应当掌握话语权,并通过标准实施加速人工智能驱动经济社会转型升级的进程。
(四)建立协同高效的创新体系。我国经济社会转型升级对人工智能有重大需求,但是单一的创新主体很难实现政策、市场、技术、应用等方面的全面突破。目前我国学术界、产业界、行业部门在人工智能发展方面各自为政的倾向比较明显,数据资源开放共享不够,缺少对行业资源的有效整合。相比而言,美国已经形成了全社会、全场景、全生态协同互动的人工智能协同创新体系,军民融合和产学研结合都做得很好。我国应在体制机制方面进一步改革创新,建立“军、政、产、学、研、用”一体的人工智能协同创新体系。例如,国家进行顶层设计和战略规划,举全国优势力量设立军事智能的研发和应用平台,提供“人工智能+X”行业融合、打破行业壁垒和行政障碍的激励政策;科技龙头企业引领技术创新生态建设,突破人工智能的重大技术瓶颈;高校科研机构进行人才培养和原始创新,着力构建公共数据资源与技术平台,共同建设若干标杆性的应用创新场景,推动成熟人工智能技术在城市、医疗、金融、文化、农业、交通、能源、物流、制造、安全、服务、教育等领域的深度应用,建设低成本高效益广范围的普惠型智能社会。
(五)加快创新人才的教育培养。发展人工智能关键在人才,中高端人才短缺已经成为我国人工智能做大做强的主要瓶颈。另外,我国社会大众的人工智能科技素养也需要进一步提升,每一个人都需要去适应人工智能时代的科技浪潮。在加强人工智能领军人才培养引进的同时,要面向技术创新和产业发展多层次培养人工智能创新创业人才。《新一代人工智能发展规划》提出逐步开展全民智能教育项目,在中小学阶段设置人工智能课程。目前人工智能科普活动受到各地学校的欢迎,但是缺少通俗易懂的高质量人工智能科普教材、寓教于乐的实验设备和器材、开放共享的教学互动资源平台。国家相关部门应高度重视人工智能教育领域的基础性工作,增加投入,组织优势力量,加强高水平人工智能教育内容和资源平台建设,加快人工智能专业的教学师资培训,从教材、教具、教师等多个环节全面保障我国人工智能教育工作的开展。
(六)推动共担共享的全球治理。人工智能将重塑全球政治和经济格局,发达国家通过人工智能技术创新掌控了产业链上游资源,难以逾越的技术鸿沟和产业壁垒有可能将进一步拉大发达国家和发展中国家的生产力发展水平差距。美国、日本、德国等通过人工智能和机器人的技术突破和广泛应用弥补他们的人力成本劣势,希望制造业从新兴国家回流发达国家。目前看,我国是发展中国家阵容中唯一有望成为全球人工智能竞争中的领跑者,应采取不同于一些国家的“经济垄断主义、技术保护主义、贸易霸凌主义”路线,尽快布局构建开放共享、质优价廉、普惠全球的人工智能技术和应用平台,配合国家“一带一路”战略,向亚洲、非洲、南美等经济欠发达地区输出高水平、低成本的“中国智造”成果、提供人工智能时代的中国方案,为让人工智能时代的“智能红利”普惠人类命运共同体做出中国贡献!
(七)制定科学合理的法律法规。要想实实在在收获人工智能带来的红利,首先应保证其安全、可控、可靠发展。美国和欧洲等发达国家和地区十分重视人工智能领域的法律法规问题。美国白宫多次组织这方面的研讨会、咨询会;特斯拉等产业巨头牵头成立OpenAI等机构,旨在以有利于整个人类的方式促进和发展友好的人工智能;科研人员自发签署23条“阿西洛马人工智能原则”,意图在规范人工智能科研及应用等方面抢占先机。我国在人工智能领域的法律法规制定及风险管控方面相对滞后,这种滞后局面与我国现阶段人工智能发展的整体形势不相适应,并可能成为我国人工智能下一步创新发展的一大掣肘。因此,有必要大力加强人工智能领域的立法研究,制定相应的法律法规,建立健全公开透明的人工智能监管体系,构建人工智能创新发展的良好法规环境。
(八)加强和鼓励人工智能社会学研究。人工智能的社会影响将是深远的、全方位的。我们当未雨绸缪,从国家安全、社会治理、就业结构、伦理道德、隐私保护等多个维度系统深入研究人工智能可能的影响,制定合理可行的应对措施,确保人工智能的正面效应。应大力加强人工智能领域的科普工作,打造科技与伦理的高效对话机制和沟通平台,消除社会大众对人工智能的误解与恐慌,为人工智能的发展营造理性务实、积极健康的社会氛围。
六、结束语
人工智能经过60多年的发展,进入了创新突破的战略机遇期和产业应用的红利收获期,必将对生产力和产业结构以及国际格局产生革命性影响,并推动人类进入普惠型智能社会。但是,我们需要清醒看到通用人工智能及人工智能的整体发展仍处于初级阶段,人工智能不是万能,人工智能还有很多“不能”。我们应当采取理性务实的发展路径,扎实推进基础研究、技术生态、人才培养、法律规范等方面的工作,在开放中创新,在创新中发展,全速跑赢智能时代,着力建设人工智能科技强国!
(主讲人系中国科学院院士)
深度研报:人工智能机器人开启第四次科技革命
图片来源@视觉中国
文|光锥智能&势乘资本,作者|谢晨星、王嘉攀、赵江宇
在互联网红利基本散尽的时代,未来到底属于web3、元宇宙,还是碳中和?到底什么样的革命性技术可以引领人类社会走出经济衰退、疫情和战争的影响,并将全球经济体量再向上推动数十倍?
我们的答案是,我们早已处于人工智能时代之中。
我们正处于传统信息技术时代的黄昏,和人工智能时代的黎明。
在过去的260年间,人类社会经历了三次巨大的科技创新浪潮,蒸汽机、电力和信息技术,将全球GDP提升了近千倍。每一次科技浪潮都通过某一项先进生产力要素的突破,进而引起大多数行业的变革:比如蒸汽机的出现推动了汽车、火车、轮船、钢铁等行业的巨大发展,140年前美国铁路行业的恶性竞争史,就如同现今互联网行业BAT之间的竞争。而铁路行业发展、兼并所需的巨额金融资本,又驱动了华尔街的发展,逐渐成为全球的金融中心。
二战之后以信息技术为核心的第三次科技革命迄今已逾70年,将全球GDP提升约60倍。其中可分为两段:1950年-1990年,是半导体产业迅猛发展的时代,推动了大型计算机向个人PC的小型化;1990年至今是近30年的互联网全球化时代,而互联网时代又细分为桌面互联网和移动互联网两段。
但随着摩尔定律的失效和信息技术红利彻底用尽,加上疫情黑天鹅影响,全球GDP衰退,引发并加剧了全球地缘政治和军事冲突,开始向逆全球化发展。
所以未来到底属于web3、元宇宙,还是碳中和?到底什么样的革命性技术可以引领人类社会走出经济衰退、疫情和战争的影响,并将全球经济体量再向上推动增长下一个50倍?
我们的答案是,我们早已处于人工智能时代之中。就像直到2010年iphone4发布,绝大多数人也并未意识到移动互联网革命早已开始一样,如今人工智能其实也已广泛应用,比如到处遍布的摄像头和手机人脸识别,微信语音和文本转换,抖音动态美颜特效、推荐算法,家庭扫地机器人和餐厅送餐机器人,背后都是人工智能核心技术在过去十年不断取得的巨大突破。
互联网已经是传统行业。
互联网技术作为过去30年最先进的生产力要素,改变了全球的所有人、所有产业、社会经济,甚至是政治、军事、宗教。
虽然互联网的技术红利已基本用尽,但我们仍可通过研究其历史规律,来预测未来新技术发展的可能路径。
30年的互联网发展历程总体可分为桌面互联网和移动互联网两个时代,按产业渗透规律,又可分为信息互联网、消费互联网和产业互联网三大阶段。
系统硬件都是最先起步,包括底层芯片、操作系统、联网通信、整机等,进而初步向媒体工具、文娱游戏行业渗透,因为这些领域最易受新技术的影响。当2002年中国网民达到6000万人,2012年中国智能手机出货量达到2亿部之后,互联网和移动互联网开始全面开花,渗透变革了直接toC的众多行业,如零售消费、交通出行、教育、金融、汽车、居住、医疗等。而当用户量进一步上涨、新技术的渗透进一步加深,企业服务、物流、制造、农业、能源等toB产业被影响。
而这个过程中可以发现,移动互联网时代对产业的渗透深度比桌面互联网更深,桌面互联网介入行业基本停留在信息连接层面,而到移动互联网时代,众多掌握先进技术要素的公司开始自己下场开超市、组车队、重构教育内容和金融机构,甚至是卖房、造车。也有些公司虽然诞生在桌面时代,但成功抓住移动爆发红利杀出重围,比如美团、去哪儿、支付宝。
抖音的崛起是中国移动互联网时代的最大变数,也是数据通信传输技术不断提升的必然,引发了用户流量结构的重组,进而催生了一大批抓住抖音流量红利崛起的消费品牌,如完美日记、花西子等等。但最终都逃不过被平台收割的命运,就像当年淘品牌的结局一样。微信支付、支付宝的普及极大推动了线下连锁零售的数字化程度和管理半径,减少了上下游现金收款产生的风险,促使其在资本市场被重新认可,连锁化率进一步提升,比如喜茶、瑞幸、Manner等等。这两条逻辑共同构成了过去几年的消费投资热潮主线。
如何评判一个新技术是否能引领未来的发展方向?
我们要看它能否从本质上解放生产力、发展生产力。
蒸汽机之所以推动了第一次科技革命,是因为其极大的提升了劳动生产力,并将大量劳动人口从第一产业农业的低级劳动中解放出来,进入第二产业工业。电力加速了这一过程,并推动了第三产业服务业的出现和发展。信息技术将更多的人口从第一、二产业中释放,进入第三产业(如大量年轻人不再进厂而去送外卖、跑滴滴),于是形成了如今全球第三产业GDP占比55%,中国第三产业劳动人口占比50%的格局。
机器人即是人工智能技术的硬件形态,在可见的未来,将第一二三产业的劳动人口从低级劳动中大比例释放和替代,并在这个过程中推动全球GDP继续百倍增长。
同时可大胆预言,以创新为职业的第四产业将会出现,而这个职业在人类的历史长河中其实一直存在于第一二三产业的边缘,不断用突破性创新推动着人类技术的进步,且社会生产力的提升促使该职业人群不断扩大。这大约能证明刘慈欣的技术爆炸假说来源。
人工智能从模块上可分为感知、计算和控制三大部分,由表及里可分为应用层、数据层、算法层、算力层,而随着2012年芯片进入28nm制程后的量子隧穿效应导致摩尔定律失效,“每提升一倍算力,就需要一倍能源”的后摩尔定律或将成为人工智能时代的核心驱动逻辑,算力的发展将极大受制于能源,当前全球用于制造算力芯片的能源占全球用电量的约1%,可以预测在人工智能大规模普及的未来数十年后,该比例将会大幅提升至50%甚至90%以上。而全球如何在减少化石能源、提升清洁能源占比,从而确保减少碳排放遏制全球升温的同时,持续提升能源使用量级,将推动一系列能源技术革命。关于该方向的研究可参考我们的另一篇报告《碳中和:能源技术新革命》。
早在第一次科技革命之前260年,哥伦布地理大发现就使西班牙成为了第一个全球化霸主。蒸汽机驱动英国打败西班牙无敌舰队,电力和两次世界大战使美国超过英国,信息技术又让美国赢得和苏联的冷战对抗,全球过了30年相对和平的单极霸权格局。
因此中国如果仅在现有技术框架中与欧美竞争,只会不断被卡脖子,事倍功半。只有引领下一代人工智能和碳中和能源技术科技革命浪潮,才能从全球竞争中胜出。
尽管中国已经跻身人工智能领域的大国,但是我们必须认识到中美之间在AI领域仍然有着明显的差距。从投资金额和布局上看,从2013年到2021年,美国对人工智能公司的私人投资是中国的2倍多。当前美国AI企业数量领先中国,布局在整个产业链上,尤其在算法、芯片等产业核心领域积累了强大的技术创新优势。更关键的是,尽管近年来中国在人工智能领域的论文和专利数量保持高速增长,但中国AI研究的质量与美国仍然有较大差距(集中体现在AI顶会论文的引用量的差距上)。
请输入图说2013-2021年中美在AI领域私有部门(如风险投资、个人投资等)投资金额上差距逐渐拉大
请输入图说中国在AI顶会上发表的文章数量已经反超美国,但影响力上仍然与美国有较大差距
图片来源:The2022AIIndexReport,StandfordUniversity
因此,中国需要持续加大在AI领域的研发费用规模,特别是加大基础学科的人才培养,吸引全世界优秀的AI人才。只有这样,中国才能有朝一日赶超美国,在基础学科建设、专利及论文发表、高端研发人才、创业投资和领军企业等关键环节上的拥有自己的优势,形成持久领军世界的格局。
一、AI发展简史
人工智能的概念第一次被提出是在1956年达特茅斯夏季人工智能研究会议上。当时的科学家主要讨论了计算机科学领域尚未解决的问题,期待通过模拟人类大脑的运行,解决一些特定领域的具体问题(例如开发几何定理证明器)。
那么到底什么是人工智能?目前看来,StuartRussell与PeterNorvig在《人工智能:一种现代的方法》一书中的定义最为准确:人工智能是有关“智能主体(Intelligentagent)的研究与设计”的学问,而“智能主体”是指一个可以观察周遭环境并做出行动以达致目标的系统。这个定义既强调了人工智能可以根据环境感知做出主动反应,又强调人工智能所做出的反应必须达成目标,同时没有给人造成“人工智能是对人类思维方式或人类总结的思维法则的模仿”这种错觉。
到目前为止,人工智能一共经历了三波浪潮。
第一次AI浪潮与图灵和他提出的“图灵测试”紧密相关。图灵测试刚提出没几年,人们似乎就看到了计算机通过图灵测试的曙光:1966年MIT教授JosephWeizenbaum发明了一个可以和人对话的小程序——Eliza(取名字萧伯纳的戏剧《茶花女》),轰动世界。但是Eliza的程序原理和源代码显示,Eliza本质是一个在话题库里通过关键字映射的方式,根据人的问话回复设定好的答语的程序。不过现在人们认为,Eliza是微软小冰、Siri、Allo和Alexa的真正鼻祖。图灵测试以及为了通过图灵测试而开展的技术研发,都在过去的几十年时间里推动了人工智能,特别是自然语言处理技术(NLP)的飞速发展。
第二次AI浪潮出现在1980-1990年代,语音识别(ASR)是最具代表性的几项突破性进展之一。在当时,语音识别主要分成两大流派:专家系统和概率系统。专家系统严重依赖人类的语言学知识,可拓展性和可适应性都很差,难以解决“不特定语者、大词汇、连续性语音识别”这三大难题。而概率系统则基于大型的语音数据语料库,使用统计模型进行语音识别工作。中国学者李开复在这个领域取得了很大成果,基本上宣告了以专家系统为代表的符号主义学派(SymbolicAI)在语音识别领域的失败。通过引入统计模型,语音识别的准确率提升了一个层次。
第三次AI浪潮起始于2006年,很大程度上归功于深度学习的实用化进程。深度学习兴起建立在以GeoffreyHinton为代表的科学家数十年的积累基础之上。简单地说,深度学习就是把计算机要学习的东西看成一大堆数据,把这些数据丢进一个复杂的、包含多个层级的数据处理网络(深度神经网络),然后检查经过这个网络处理得到的结果数据是不是符合要求——如果符合,就保留这个网络作为目标模型;如果不符合,就一次次地、锲而不舍地调整网络的参数设置,直到输出满足要求为止。本质上,指导深度学习的是一种“实用主义”的思想。实用主义思想让深度学习的感知能力(建模能力)远强于传统的机器学习方法,但也意味着人们难以说出模型中变量的选择、参数的取值与最终的感知能力之间的因果关系。
需要特别说明的是,人们往往容易将深度学习与“机器学习”这一概念混淆。事实上,在1956年人工智能的概念第一次被提出后,ArthurSamuel就提出:机器学习研究和构建的是一种特殊的算法而非某一个特定的算法,是一个宽泛的概念,指的是利用算法使得计算机能够像人一样从数据中挖掘出信息;而深度学习只是机器学习的一个子集,是比其他学习方法使用了更多的参数、模型也更加复杂的一系列算法。简单地说,深度学习就是把计算机要学习的东西看成一大堆数据,把这些数据丢进一个复杂的、包含多个层级的数据处理网络(深度神经网络),然后检查经过这个网络处理得到的结果数据是不是符合要求——如果符合,就保留这个网络作为目标模型,如果不符合,就一次次地、锲而不舍地调整网络的参数设置,直到输出满足要求为止。本质上,指导深度学习的是一种“实用主义”的思想。实用主义思想让深度学习的感知能力(建模能力)远强于传统的机器学习方法,但也意味着人们难以说出模型中变量的选择、参数的取值与最终的感知能力之间的因果关系。
二、AI的三大基石解析
如前所述,人工智能由表及里可分为应用层、数据层、算法层和算力层。
1.算力
算力层包括具备计算能力硬件和大数据基础设施。回顾历史我们就会发现,历次算力层的发展都会显著推动算法层的进步,并促使技术的普及应用。21世纪互联网大规模服务集群的出现、搜索和电商业务带来的大数据积累、GPU和异构/低功耗芯片兴起带来的运算力提升,促成了深度学习的诞生,促成了人工智能的这一波爆发。而AI芯片的出现进一步显著提高了数据处理速度:在CPU的基础上,出现了擅长并行计算的GPU,以及拥有良好运行能效比、更适合深度学习模型的现场可编程门阵列(FPGA)和应用专用集成电路(ASIC)。
当前,人工智能的算力层面临巨大的挑战。随着2012年芯片28nm的工艺出现,原先通过在平面上增加晶体管的数量来提升芯片性能的思路因为量子隧穿效应而不再可取,摩尔定律开始失效。晶体管MOSFET这个芯片里最基础的单元,由平面结构变成立体结构(由下图中的Planar结构转向FinFET结构,2018年之后进一步从FinFET结构转向GAAFET结构)。
三代MOSFET的栅极结构演化。其中灰色代表电流流经区域,绿色代表充当闸门的栅极
芯片结构的改变直接导致了芯片制造步骤的增加,最终体现为成本的上升。在2012年28nm工艺的时候,处理器的生产大概需要450步。到了2021年的5nm工艺时,生产环节已经增加到了1200步。对应到每1亿个栅极的制造成本上,我们从图中可以清楚地看到,从90nm工艺到7nm工艺,生产成本先下降后上升。这就使得摩尔定律的另一种表述形式——“同样性能的新品价格每18-24个月减半”不再成立。未来我们很可能见到的情况是,搭载了顶级技术和工艺生产出来的芯片的电子产品或设备价格高昂,超过了一般消费者的承受力度。
每1亿个栅极的制造成本、图片来源:MarvellTechnology,2020InvestorDay
不过算力层的这个变化让半导体制造企业受益最大,因为只要需求存在,台积电、三星、英特尔等几家掌握先进工艺的厂商就会持续投入资金和人力,不断设计和制造新一代芯片,然后根据自身成本给产品定价。
想要彻底解决摩尔定律失效的问题,需要跳出当前芯片设计的冯·诺依曼结构。类脑芯片、存算一体、寻找基于硅以外的新材料制造芯片,甚至量子计算等等都是潜力巨大的解决方案,但是这些方案距离成熟落地还非常遥远(最乐观地估计也需要几十年的时间),无法解决当下芯片行业的困局。在这段时期内,行业内为了提升芯片性能,开始广泛应用Chiplet技术,或者使用碳基芯片、光芯片等等。
Chiplet技术
Chiplet技术的原理有点类似搭积木,简单来说就是把一堆小芯片组合成一块大芯片。这种技术能够以较低的成本制造过于复杂的芯片,并且保证足够优秀的良率,从2012年开始就逐步被使用。当前Chiplet技术已经能够在二维平面上实现用不同的材料和工艺加工拼接的小核心,Intel等公司正在把Chiplet技术引入新的阶段发展:在垂直方向上堆叠多层小核心,进一步提升芯片的性能(例如Intel于2018年开发的Foveros3DChiplet)。不过Chiplet技术路线面临的最大问题来源于芯片热管理方面:如果在三维结构上堆叠多层小核心,传统的通过CPU顶部铜盖一个面散热的方案将无法解决发热问题,因此可能需要在芯片的内部嵌入冷却装置来解决发热功率过高的问题。
碳纳米管技术
使用碳纳米管可能是另一个短期解决方案。这项技术属于碳基芯片领域,具体来说就是用碳纳米管承担芯片里基础元件开关的功能,而不是像传统芯片一样使用掺杂的半导体硅来传输电子。这种技术的优势在于导电性好、散热快、寿命长,而且由于其本质上仍然保留了冯·诺依曼架构,当前的生产工艺、产业链等匹配设施都不需要做出太大的调整。但是目前碳纳米管的大规模生产和应用还有一些困难,距离把碳纳米管按照芯片设计的要求制造出来可能还需要几十年。
短期内,围绕Chiplet技术在热管理方面的探索,和碳纳米管技术的灵活生产制造突破是算力层面上我们重点关注的机会。当然,我们也要了解目前类脑芯片、存算一体和量子计算等终局解决方案的相关情况。这里为大家简单介绍如下:
类脑芯片
类脑芯片的灵感源于人脑。类脑芯片和传统结构的差异体现在两方面:第一,类脑芯片中数据的读取、存储和计算是在同一个单元中同时完成的,也即“存算一体”;第二,单元之间的连接像人类神经元之间的连接一样,依靠“事件驱动。
目前,类脑芯片的相关研究分为两派。一派认为需要了解清楚人脑的工作原理,才能模仿人类大脑设计出新的结构。但是目前人类对人脑的基本原理理解得仍然很粗浅,因此这一派取得的进展相当有限。另外一派则认为,可以先基于当前已有的生物学知识,比照人脑的基础单元设计出一些结构,然后不断试验、优化、取得成果,实现突破。目前这一派的研究人员依照神经元的基础结构,给类脑芯片做了一些数学描述,也搭建了模型,并且做出了不少可以运行的芯片。
存算一体
存算一体可以简单被概括为“用存储电荷的方式实现计算”,彻底解决了冯诺依曼结构中“存储”和“计算”两个步骤速度不匹配的问题(事实上,在以硅为基础的半导体芯片出现之后,存算速度不匹配的情况就一直存在)。存算一体机构在计算深度学习相关的任务时表现突出,能耗大约是当前传统计算设备的百分之一,能够大大提升人工智能的性能。除此之外,这种芯片在VR和AR眼镜等可穿戴设备上有广阔的应用前景,也能推动更高分辨率的显示设备价格进一步降低。
目前,存算一体仍然有两个问题没有突破:第一是基础单元(忆阻器)的精度不高,其次是缺少算法,在应对除了矩阵乘法以外的计算问题时表现远不如冯·诺依曼结构的芯片。
量子计算
量子计算是用特殊的方法控制若干个处于量子叠加态的原子,也叫作“量子”,通过指定的量子态来实现计算。量子计算机最适合的是面对一大堆可能性的时候,可以同时对所有可能性做运算。为了从所有的结果中找一个统计规律,我们需要使用量子计算机进行多次计算。不过由于退相干的问题,量子计算很容易出错。目前量子计算的纠错方法有待突破,只有解决了这个问题量子计算才可能被普遍使用。
当前量子计算机体积过大、运行环境严苛、造价昂贵。目前来看量子计算与经典计算不是取代与被取代的关系,而是在对算力要求极高的特定场景中发挥其高速并行计算的独特优势。中科大的量子物理学家陆朝阳曾总结道,“到目前为止,真正可以从量子计算中受益的实际问题仍然非常有限,享受指数级加速的就更少了——其他的仅有更有限的加速”。
总体而言,量子计算机的相关成果都只停留在科学研究的阶段,距离实际应用还很遥远。
2.算法
算法层指各类机器学习算法。如果根据训练方法来分类,机器学习算法也可以分成“无监督学习”、“监督学习”和“强化学习”等。按照解决问题的类型来分,机器学习算法包括计算机视觉算法(CV)、自然语言处理算法(NLP)、语音处理和识别算法(ASR)、智慧决策算法(DMS)等。每个算法大类下又有多个具体子技术,这里我们为大家简单介绍:
2.1计算机视觉
计算机视觉的历史可以追溯到1966年,当时人工智能学家Minsky要求学生编写一个程序,让计算机向人类呈现它通过摄像头看到了什么。到了1970-1980年代,科学家试图从人类看东西的方法中获得借鉴。这一阶段计算机视觉主要应用于光学字符识别、工件识别、显微/航空图片的识别等领域。
到了90年代,计算机视觉技术取得了更大的发展,也开始广泛应用于工业领域。一方面是由于GPU、DSP等图像处理硬件技术有了飞速进步;另一方面是人们也开始尝试不同的算法,包括统计方法和局部特征描述符的引入。进入21世纪,以往许多基于规则的处理方式,都被机器学习所替代,算法自行从海量数据中总结归纳物体的特征,然后进行识别和判断。这一阶段涌现出了非常多的应用,包括相机人脸检测、安防人脸识别、车牌识别等等。
2010年以后,深度学习的应用将各类视觉相关任务的识别精度大幅提升,拓展了计算机视觉技术的应用场景:除了在安防领域应用外,计算机视觉也被应用于商品拍照搜索、智能影像诊断、照片自动分类等场景。
再细分地来看,计算机视觉领域主要包括图像处理、图像识别和检测,以及图像理解等分支:
图像处理:指不涉及高层语义,仅针对底层像素的处理。典型任务包括图片去模糊、超分辨率处理、滤镜处理等。运用到视频上,主要是对视频进行滤镜处理。这些技术目前已经相对成熟,在各类P图软件、视频处理软件中随处可见;
图像识别和检测:图像识别检测的过程包括图像预处理、图像分割、特征提取和判断匹配,可以用来处理分类问题(如识别图片的内容是不是猫)、定位问题(如识别图片中的猫在哪里)、检测问题(如识别图片中有哪些动物、分别在哪里)、分割问题(如图片中的哪些像素区域是猫)等。这些技术也已比较成熟,图像上的应用包括人脸检测识别、OCR(光学字符识别)等,视频上可用来识别影片中的明星;
图像理解:图像理解本质上是图像与文本间的交互,可用来执行基于文本的图像搜索、图像描述生成、图像问答(给定图像和问题,输出答案)等。图像理解任务目前还没有取得非常成熟的结果,商业化场景也正在探索之;
总体而言,计算机视觉已经达到了娱乐用、工具用的初级阶段。未来,计算机视觉有望进入自主理解、甚至分析决策的高级阶段,真正赋予机器“看”的能力,从而在智能家居、无人车等应用场景发挥更大的价值。
2.2语音识别
第一个真正基于电子计算机的语音识别系统出现在1952年。1980年代,随着全球性的电传业务积累了大量文本可作为机读语料用于模型的训练和统计,语音识别技术取得突破:这一时期研究的重点是大词汇量、非特定人的连续语音识别。1990年代,语音识别技术基本成熟,但识别效果与真正实用还有一定距离,语音识别研究的进展也逐渐趋缓。
随着深度神经网络被应用到语音的声学建模中,人们陆续在音素识别任务和大词汇量连续语音识别任务上取得突破。而随着循环神经网络(RNN)的引入,语音识别效果进一步得到提升,在许多(尤其是近场)语音识别任务上达到了可以进入人们日常生活的标准。以AppleSiri为代表的智能语音助手、以Echo为首的智能硬件等应用的普及又进一步扩充了语料资源的收集渠道,为语言和声学模型的训练储备了丰富的燃料,使得构建大规模通用语言模型和声学模型成为可能。
与语音识别紧密关联的是语音处理。语音处理为我们提供了语音转文字、多语言翻译、虚拟助手等一系列软件。一个完整的语音处理系统,包括前端的信号处理、中间的语音语义识别和对话管理(更多涉及自然语言处理),以及后期的语音合成。
前端信号处理:语音的前端处理涵盖说话人声检测、回声消除、唤醒词识别、麦克风阵列处理、语音增强。
语音识别:语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。
语音合成:语音合成的几个步骤包括文本分析、语言学分析、音长估算、发音参数估计等。基于现有技术合成的语音在清晰度和可懂度上已经达到了较好的水平,但机器口音还是比较明显。目前的几个研究方向包括如何使合成语音听起来更自然、如何使合成语音的表现力更丰富,以及如何实现自然流畅的多语言混合合成。
2.3自然语言处理
早在1950年代,人们就有了自然语言处理的任务需求,其中最典型的就是机器翻译。到了1990年代,随着计算机的计算速度和存储量大幅增加、大规模真实文本的积累产生,以及被互联网发展激发出的、以网页搜索为代表的基于自然语言的信息检索和抽取需求出现,自然语言处理进入了发展繁荣期。在传统的基于规则的处理技术中,人们引入了更多数据驱动的统计方法,将自然语言处理的研究推向了一个新高度。
进入2010年以后,基于大数据和浅层、深层学习技术,自然语言处理的效果得到了进一步优化,出现了专门的智能翻译产品、客服机器人、智能助手等产品。这一时期的一个重要里程碑事件是IBM研发的Watson系统参加综艺问答节目Jeopardy。机器翻译方面,谷歌推出的神经网络机器翻译(GNMT)相比传统的基于词组的机器翻译(PBMT),在翻译的准确率上取得了非常强劲的提升。
自然语言处理从流程上看,分成自然语言理解(NLU)和自然语言生成(NLG)两部分,这里我们简单为大家介绍知识图谱、语义理解、对话管理等研究方向。
知识图谱:知识图谱基于语义层面,对知识进行组织后得到的结构化结果,可以用来回答简单事实类的问题,包括语言知识图谱(词义上下位、同义词等)、常识知识图谱(“鸟会飞但兔子不会飞”)、实体关系图谱(“刘德华的妻子是朱丽倩”)。知识图谱的构建过程其实就是获取知识、表示知识、应用知识的过程。
语义理解:核心问题是如何从形式与意义的多对多映射中,根据当前语境找到一种最合适的映射。以中文为例,需要解决歧义消除、上下文关联性、意图识别、情感识别等困难。
对话管理:为了让机器在与人沟通的过程中不显得那么智障,还需要在对话管理上有所突破。目前对话管理主要包含三种情形:闲聊、问答、任务驱动型对话。
2.4规划决策系统
真正基于人工智能的规划决策系统出现在电子计算机诞生之后。1990年代,硬件性能、算法能力等都得到了大幅提升,在1997年IBM研发的深蓝(DeepBlue)战胜国际象棋大师卡斯帕罗夫。到了2016年,硬件层面出现了基于GPU、TPU的并行计算,算法层面出现了蒙特卡洛决策树与深度神经网络的结合。人类在完美信息博弈的游戏中已彻底输给机器,只能在不完美信息的德州扑克和麻将中苟延残喘。人们从棋类游戏中积累的知识和经验,也被应用在更广泛的需要决策规划的领域,包括机器人控制、无人车等等。
2.5算法的发展趋势和面临的瓶颈
近年来。处在机器学习也产生了几个重要的研究方向,例如从解决凸优化问题到解决非凸优化问题,以及从监督学习向非监督学习、强化学习的演进:
从解决凸优化问题到解决非凸优化问题
目前机器学习中的大部分问题,都可以通过加上一定的约束条件,转化或近似为一个凸优化问题。凸优化问题是指将所有的考虑因素表示为一组函数,然后从中选出一个最优解。而凸优化问题的一个很好的特性是局部最优就是全局最优。这个特性使得人们能通过梯度下降法寻找到下降的方向,找到的局部最优解就会是全局最优解。
然而在现实生活中,真正符合凸优化性质的问题其实并不多,目前对凸优化问题的关注仅仅是因为这类问题更容易解决。人们现在还缺乏针对非凸优化问题的行之有效的算法。
从监督学习向非监督学习、强化学习的演进
目前来看,大部分的AI应用都是通过监督学习,利用一组已标注的训练数据,对分类器的参数进行调整,使其达到所要求的性能。但在现实生活中,监督学习不足以被称为“智能”。对照人类的学习过程,许多都是建立在与事物的交互中,通过人类自身的体会、领悟,得到对事物的理解,并将之应用于未来的生活中。而机器的局限就在于缺乏这些“常识”。
无监督学习领域近期的研究重点在于“生成对抗网络”(GANs),而强化学习的一个重要研究方向在于建立一个有效的、与真实世界存在交互的仿真模拟环境,不断训练,模拟采取各种动作、接受各种反馈,以此对模型进行训练。
从“堆数据”到研发低训练成本的算法
MITDigitalLab的研究者联合韩国的相关机构在2020年发表了一项基于1058篇深度学习的论文和数据的研究。在分析了现有的深度学习论文成果后,研究人员提出了一个悲观的预言:深度学习会随着计算量的限制,在到达某个性能水平后停滞不前,因为在深度学习领域有这样一条规律:想提升X倍的性能,最少需要用X^2倍的数据去训练模型,且这个过程要消耗X^4倍的计算量。即便是10倍性能提升和1万倍计算量的提升,这样失衡的比例关系也仅仅是理论上最优的。在现实中,提升10倍性能往往要搭上10亿倍的运算量。以今天地球资源的状况看,想把一些常用的模型错误率降低到人们满意的程度,代价高到人类不能承受。因此,在深度学习领域非常值得关注的是可大幅降低训练成本的新算法创新。
图像分类、物体识别、语义问答等多个领域AI算法准确率及对应所需算力(Gflops)、碳排放量和经济成本
(Today水平截止于2020年已经发表的成果)
3.数据
数据层指的是人工智能为不同的行业提供解决方案时所采集和利用的数据。事实上,使用人工智能解决问题的步骤绝不仅仅包括搜集和整理数据。这里我们简单介绍一下完整的流程和思路:
收集数据:数据的数量和质量直接决定了模型的质量。
数据准备:在使用数据前需要对数据进行清洗和一系列处理工作。
模型选择:不同的模型往往有各自擅长处理的问题。只有把问题抽象成数学模型后,我们才能选择出比较适合的模型,而这一步往往也是非常困难的。
训练:这个过程不需要人来参与,机器使用数学方法对模型进行求解,完成相关的数学运算。
评估:评估模型是否较好地解决了我们的问题。
参数调整:可以以任何方式进一步改进训练(比如调整先前假定的参数)。
预测:开始使用模型解决问题。
如果我们想利用人工智能解决的问题被限定在足够小的领域内,那么我们就更容易活动具体场景下的训练数据,从而更高效、更有针对性地训练模型。在金融、律政、医疗等行业的细分场景下,人工智能已经逐步被应用,且已经实现了一定的商业化。
一、为什么是机器人
1.机器人的外延及框架
虽然机器人产业已有超过60年发展史,在传统【工业机器人】及【服务机器人】分析框架下,全球机器人产业仅有300-400亿美元行业规模,但我们认为,在智能化加持下,机器人的外延及边界已被数倍扩大,新物种的诞生及传统设备的智能化将共同驱动“机器人”产业十倍及百倍增长。
概括来讲,机器人普遍存在的意义是“为人类服务”的可运动智能设备,包括机器人对于人类劳动的替代、完成人类所无法完成任务的能力延伸以及情感陪伴等价值。
面对人类对于物质及精神永不停止的需求增长,相对于元宇宙,机器人将会是“现实宇宙”中的最佳供给方案。
2.AI将会带给机器人怎样的质变
(1)智能化大幅提升
可软件升级:传统机器人无法实现软件算法在线升级,智能化机器人能够通过软件算法的迭代持续提升性能;这让机器人的能力理论上是没有上限的
规模效应:机器人应用规模越大,收集数据越多,算法迭代越完善,机器人越好用
可适用性大幅增加:机器人智慧程度线性增加,可适用的场景及价值将会指数增加
(2)智能化带来的场景适用性提升
AI技术将会是机器人全面爆发的最大变量,机器人产业的爆发极有可能是新物种引领;例如近三年全面爆发的机器人项目,在10年前几乎不存在(例如九号公司、石头科技、普渡、擎朗、云迹、高仙、梅卡曼德、极智嘉等)。
二、为什么是现在?
1.劳动力替代及升级趋势不可逆
在人口老龄化趋势下,2015-2020年,我国劳动力人口减少约1700万人,我国人均收入从4.97万元增至7.15万元,在用工难及用工贵的不可逆趋势下,智能化机器人的补充成为最重要的生产力增长点。
2021年我国人均GDP已超1.2万美元,在我国将成为全球人口最多的高收入国家(门槛为人均1.25万美元)的进程中,作为全球最大的制造业大国转型升级,将会带来全世界体量最大的机器人用工需求。
2.成熟的技术与产业基础
我们认为,智能手机及智能汽车产业的发展,实质上为现阶段智能机器人产业爆发奠定了大量技术基础:
感知层面:视觉模组、激光雷达、毫米波雷达的逐渐发展,成本降低到可用的程度;数据采集、算法训练及软件在线迭代为智能机器人未来持续升级提供了借鉴范式;
决策层面:智能SoC芯片提供了足够的算力基础,汽车自动驾驶与移动机器人在底层技术上亦有相通之处;
控制层面:近十年锂电技术提升了电池续航能力,同时有线及无线充电技术快速进步,5G及WIFI技术发展为机器人提供了通讯控制基础;
环境基础:我国拥有全世界最适合机器人产业发展的土壤,例如低成本敏捷供应链、低成本清洁能源供给、工程师红利、最广大数据收集场景;现阶段创造一款机器人新品的零配件采购难度要远低于十年前;
三、如何判断未来十年新机遇
1.从职业场景出发——寻找未被满足的大赛道
我们认为投资机构在机器人领域投的并不单纯是智能硬件或国产替代,而是押注未来数个万亿级、数十个千亿级、上百个百亿级工作场景的无人化;未来机器人公司主流定价方式很可能取决于可替代的必要劳动价值,机器人公司直接提供高粘性持续的收费服务(RobotasaService),而非按照传统的“BOM成本+一定的毛利空间”去定价。
我们收集了不同职业场景的从业人数及人均收入数据,得出不同职业劳动力成本总和,制作了机器人领域潜在替代场景图谱。
未来机器人对于人工的替代将从大场景、低复杂度入手,逐步向中小型场景、高复杂度渗透;未来10年最有潜力的投资方向将会是现阶段供给基本空白的大场景。
数据来源:国家统计局等机构
上图部分职业又可细分出上百个环节(根据“十四五”机器人发展规划)
(1)制造业:焊接、自动搬运、防爆物品生产、分拣、包装、协作生产、打磨、装配等工作
(2)建筑业:建筑部件智能化生产、测量、材料配送、钢筋加工、混凝土浇筑、楼面墙面装饰装修、构部件安装、焊接等工作
(3)农业:可进一步拆分为果园除草、精准植保、果蔬剪枝、采摘收获、分选,以及用于畜禽养殖业的喂料、巡检、清淤泥、清网衣附着物、消毒处理等工作
(4)矿业:采掘、支护、钻孔、巡检、重载辅助运输等工作
(5)医疗康复:手术、护理、检查、康复、咨询、配送等工作
(6)养老助残:助行、助浴、物品递送、情感陪护、智能假肢等应用
(7)家用场景:家务劳动、教育、娱乐、安防监控等工作
(8)公共场所:讲解导引、餐饮、配送、代步等工作
(9)水下场景:水下探测、监测、作业、深海矿产资源开发等工作
(10)安防场景:安保巡逻、缉私安检、反恐防暴、勘查取证、交通管理、边防管理、治安管控等工作
(11)危险环境作业:消防、应急救援、安全巡检、核工业操作、海洋捕捞等工作
(12)卫生防疫:检验采样、消毒清洁、室内配送、辅助移位、辅助巡诊查房、重症护理辅助操作等工作
2.从技术可行性出发——细分场景的实现难度
(1)从【场景是否单一】及【工作复杂度】两个维度进行分析
分析一项职业被机器人替代的难度,我们认为可以落入以下四个象限进行分析;其中场景维度指该项工作是否需要适应多变的环境,是否需要转移;复杂度指完成该项工作需要的知识储备多少及解决问题的难度
A.单一场景、低复杂度:例如简单的加工制造工序、搬运、安保、清洁、农业养殖等劳动更容易率先实现机器替代
B.单一场景、高复杂度:例如绘画、音乐演奏、作家、医生、教育、财务、销售、厨师等场景
C.多场景、低复杂度:例如应对不同场景下的无人驾驶,不同种类的家务劳动
D.多场景、高复杂度:例如警察、外交官、企业管理人员、研发创新等工作
(2)从机器与人类的思维长处分析
机器智能在大规模数据与信息处理、细节分析等方面具备天然优势
在需要情感、综合推理、想象力、创造力等方面的职业,人类被机器人替代的难度较大
3.从经济性出发——替代人效比
如何判断某个细分场景下,是否已经到达了机器人应用拐点?我们认为核心指标是替代人效比,即机器人的购买及维护成本相对于同岗位人力成本的回本周期
ROI<48个月时,该细分赛道会有产品出现,客户开始考虑尝试
ROI<24个月时,该细分赛道客户开始批量购买测试
ROI<12个月时,市场开始全产爆发
经济性逐渐提升背后的因素:人员成本上涨、人力紧缺、上游零配件成本下降、规模量产降低了成本、AI技术发展使得功能实现的成本降低等
四、机器人智能化三要素解析
什么样的机器人能够称得上是智能机器人?目前世界范围内还没有一个统一定义
我们认为如果对智能机器人进行抽象化解析,往往需要具备三大要素——即感知、决策和控制。
感知要素:用来认识周围环境状态,包括能感知视觉、接近、距离等的非接触型传感器和能感知力、压觉、触觉等的接触型传感器。这些要素实质上就是相当于人的眼、鼻、耳等五官,功能可以利用诸如摄像机、像传感器、超声波传成器、激光器、导电橡胶、压电元件、气动元件、行程开关等机电元器件来实现。
决策要素:也称为思考要素,根据传感器收集的数据,思考出采用什么样的动作。智能机器人的思考要素是三个要素中的关键。思考要素包括有判断、逻辑分析、理解等方面的智力活动。这些智力活动实质上是一个信息处理过程,而计算机则是完成这个处理过程的主要手段。
控制要素:也称为运动要素,对外界做出反应性动作;对运动要素来说,智能机器人需要有一个无轨道型的移动机构,以适应诸如平地、台阶、墙壁、楼梯、坡道等不同的地理环境。它们的功能可以借助轮子、履带、支脚、吸盘、气垫等移动机构来完成。在运动过程中要对移动机构进行实时控制,这种控制不仅要包括有位置控制,而且还要有力度控制、位置与力度混合控制、伸缩率控制等。
从商业机会的角度来讲,三大要素并不是独立割裂的,例如做视觉传感器的玩家往往要配套相应的软件算法,服务于各细分场景的厂商需要极强的多传感器融合、多机型控制及面向行业的智能决策能力。
三大要素中既有专精于某一环节的零部件或软件供应商机会(如核心零部件、操作系统、关键控制算法等),也有整合了其中2-3个环节的关键技术要素,为细分场景提供全套服务的应用机会(例如在清洁、配送、交通等场景的机器人服务商)。
1.感知——机器人感觉器官
(1)传感器分类
内部传感器:内部传感器是用于测量机器人自身状态的功能元件,其功能是测量运动学量和力学量,用于机器人感知自身的运动状态,使得机器人可以按照规定的位置、轨迹和速度等参数运动;包括位置传感器、速度传感器、加速度传感器、力传感器、压力传感器、力矩传感器、姿态传感器等。
外部传感器:外部传感器主要是感知机器人自身所处环境以及自身和环境之家的相互信息,包括视觉、力觉等。包括激光雷达、嗅觉传感器、视觉传感器、语音合成、语音识别、可见光和红外线传感器等。
(2)传感器在智能机器人的应用
视觉和接近传感器:类似于自动驾驶车辆所需的传感器,包括摄像头、红外线、声纳、超声波、雷达和激光雷达。某些情况下可以使用多个摄像头,尤其是立体视觉。将这些传感器组合起来使用,机器人便可以确定尺寸,识别物体,并确定其距离。
触觉传感器:微型开关是接触传感器最常用型式,另有隔离式双态接触传感器(即双稳态开关半导体电路)、单模拟量传感器、矩阵传感器(压电元件的矩阵传感器、人工皮肤——变电导聚合物、光反射触觉传感器等)。
射频识别(RFID)传感器:可以提供识别码并允许得到许可的机器人获取其他信息。
声学传感器(麦克风):帮助机器人接收语音命令并识别熟悉环境中的异常声音。如果加上压电传感器,还可以识别并消除振动引起的噪声,避免机器人错误理解语音命令。先进的算法甚至可以让机器人了解说话者的情绪。
湿温度传感器:是机器人自我诊断的一部分,可用于确定其周遭的环境,避免潜在的有害热源。利用化学、光学和颜色传感器,机器人能够评估、调整和检测其环境中存在的问题。
运动稳定性感知:对于可以走路、跑步甚至跳舞的人形机器人,稳定性是一个主要问题。它们需要与智能手机相同类型的传感器,以便提供机器人的准确位置数据。在这些应用采用了具有3轴加速度计、3轴陀螺仪和3轴磁力计的9自由度(9DOF)传感器或惯性测量单元(IMU)。
传感器微型化趋势:过去传感器的性能与体积往往成正比,限制了其在机器人领域应用。芯片制程技术提升使微型传感器的制造成为可能,从而广泛应用于机器人领域。
(3)多传感器融合是未来趋势
多传感器信息融合技术是近年来十分热门的研究课题,指综合来自多个传感器的感知数据,经过融合的多传感器系统能够更加完善、精确地反映检测对象的特性,消除信息的不确定性,提高信息的可靠性。融合后的多传感器信息具有以下特性:冗余性、互补性、实时性和低成本性。
多传感器信息融合方法主要有贝叶斯估计、Dempster-Shafer理论、卡尔曼滤波、神经网络、小波变换等。
2.决策——机器人大脑
机器人决策我们认为是最具场景差异化的部分,因为不同职业场景下的工作方式、思维逻辑是大相径庭的;在机器人算法与决策方面的创业团队需要非常熟悉场景需求,提炼出标准化的操作流程,然后应用于机器人软硬件控制中。
想要让机器人解决问题我们需要完成三个步骤:第一,明确问题的方向和边界;第二,建立数学模型;最后,找到合适的算法解决问题。这里我们重点讨论将复杂的现实问题转化为数学语言的“建模”过程和选择算法的过程。
建模的第一步需要确定假设。我们需要先明确想让机器人做出什么样精度的决策,以及能否实现,从而确定需要考虑和舍弃哪些要素。在确定了重要变量和核心关系后,我们就把复杂的现实问题转化成计算机可以理解、算法可以处理的数学问题。确定假设后,常识能帮助我们验证模型,但是多数情况下需要我们不断地将模型和现实问题作比较,从而把现实问题尽可能无损地映射进计算机里面。
在建立了模型后,我们需要选择合适的算法来解决不同模型对应的具体现实问题。在进行算法选择的时候需要具体问题具体分析,兼顾“质量”与“效率”。比如同样是让计算机处理图像数据,家庭场景下的扫地机器人和专门用来处理天文观测数据的计算机对算法要求就不一样:前者要求在较快的时间内完成对图像精准度适中的处理,而后者对时间则无感,对精准度有极高的要求。也正是因为绝大多数问题不存在唯一解或者绝对正确的解,算法工程师需要根据机器人工作的场景和目标做出最合适的取舍。
在机器人决策环节中,让机器人自身的硬件处理多少计算任务是一个关键的问题。通常情况下,如果任务的执行依赖于多个机器人采集的多点数据,那么计算任务就更可能在多点数据汇集起来后,被放在远端的云服务器上进行处理。比如,如果有大量的机器人在特定的街区内追捕嫌犯,那么我们就需要所有机器人把采集到的图像等信息上传到云端处理,在一个“大脑中枢”规划了每一个机器人的路径后,每个机器人执行自己所接收到的指令。当然,多数情况下应用云计算的场景是,每个机器人自身的芯片算力不足或者单位能耗过大。云计算提供了一种更加经济的算力解决方案,帮助机器人解决所面临的问题。在此基础上,为了避免网络带宽不足、处理时间过长等问题,人们还会使用边缘计算、雾计算等方案。
以上是机器人决策部分所需要考虑的共性问题。当然,不同场景下机器人所面临的的决策问题非常不同,我们认为这也是机器人应用中最具场景差异化的部分。不过站在更高的维度上进行抽象后,我们依然能够发现大多数机器人都需要面对三大类决策问题:按照什么规则移动位置——移动决策、按照什么规则调整自身——机械臂运动决策,以及如何保障贯彻人类指令——人机交互决策。
(1)平面移动能力
定位导航技术需要机器人的感知能力,需要借助视觉传感器(如激光雷达)来帮助机器人完成周围环境的扫描,并配合相应的算法,构建有效的地图数据,以完成运算,最终实现机器人的自主定位导航。
同步定位:主要涉及激光SLAM以及视觉SLAM。前者主要采用2D或3D激光雷达进行数据搜集,后者主要有两种技术路径——基于RGBD的深度摄像机和基于单目、双目或鱼眼摄像头。
地图构建:机器人学中的地图构建主要有4种:栅格地图、特征点地图、直接表征法以及拓扑地图。
路径规划:路径规划是导航研究中的一个重要环节,主要方法有3种:基于事例的学习方法、基于环境模型的规划方法、基于行为的路径规划方法。
(2)三维空间运动能力
空间机械臂操控过程中涉及的5项关键技术,包括:交会对接与捕获技术、自主规划与智能控制技术、传感与感知技术、智能协同与操控技术及系统安全保障技术。
视觉系统的是智能机械臂三维运动最重要的组成部分,主要由计算机、摄影设备及图像采集设备构成。机器人视觉系统工作过程主要有图像采集、图像分析、图像输出等,其中,图像特征分析、图像辨别、图像分割均为关键任务,视觉信息的压缩和滤波处理、特定环境标志识别、环境和故障物检测等是视觉信息处理中难度最大、最核心的过程。
(3)人机交互能力
语音交互:结合语音人机交互过程,人机交互中的关键技术中包含了自然语音处理、语义分析和理解、知识构建和学习体系、语音技术、整合通信技术以及云计算处理技术。
视觉交互:机器人如果需要理解人类的感情,就会涉及人脸识别技术,包括特征提取及分类。
手势交互:目前,常用的手势识别方法主要包括基于神经网络的识别方法、基于隐马尔可夫模型的识别方法和基于几何特征的识别方法。
3.控制——机器人运动能力
(1)常见的运动控制部件
机器人三大核心零部件为减速器、伺服电机、控制器,三大部件成本占机器人成本70%左右,其中减速器占成本构成35%左右,伺服电机占23%左右,控制器占12%左右。
我国工业机器人零部件目前仍处于追赶者,核心零部件主要依赖进口,但国产厂商(如埃斯顿、汇川技术、绿的谐波等)目前正在由守转攻的转折点,市占率即将超过50%,正在开始获得国外头部客户订单;我们认为机器人核心零部件进口只是短期问题,未来3-5年我国在制造水平及成本上有望全面赶超国外水平。
在服务机器人领域(如餐饮、清洁、递送等机器人),我国零部件及本体制造已达到全球领先水平;在供应链优势下,技术及成本上有望进一步突破。
数据来源:公司公告、浙商证券研究所,部分国产份额为预估值
(2)机器人运动如何进一步发展
与其他形态的机器人(如履带式、轮式等)相比,腿足式机器人在移动范围和灵活性上有巨大优势。但是实现行走乃至跑跳对腿足式机器人来说并不容易,除了BostonDynamics研发的腿足式机器人(如Atlas)之外,我们很少看到其他公司研发出灵活的、具有优秀平衡感腿足式机器人
要想让机器人像人一样灵巧、平稳地移动,并在此基础上完成复杂的任务,机器人的每一步都需要动态平衡,需要对瞬间的不稳定性有极强的适应能力。这包括需要快速调整脚的着地点,计算出突然转向需要施加多大的力,更重要的是还要在极短的时间内向足部实施非常大而又精准的力。这对控制理论、系统集成和工程实现等多个