人工智能十年发展总结,中国进步神速,第三次发展浪潮下的人工智能有何机遇与挑战!
0分享至导读
人工智能在过去十年中从实验室走向产业化生产,重塑传统行业模式、引领未来的价值已经凸显,并为全球经济和社会活动做出了不容忽视的贡献。当前,人工智能已经迎来其发展史上的第三次浪潮。人工智能理论和技术取得了飞速发展,在语音识别、文本识别、视频识别等感知领域取得了突破,达到或超过人类水准,成为引领新一轮科技革命和产业变革的战略性技术。人工智能的应用领域也快速向多方向发展,出现在与人们日常生活息息相关的越来越多的场景中。近日,清华大学科技情报大数据挖掘与服务系统平台AMiner发布了研究报告《人工智能发展报告2011-2020》,阐述人工智能过去十年取得的重要成果,并讨论了人工智能的未来发展蓝图,理论、技术和应用方面的重大变化与挑战。敬请阅读。
01.
飞速发展的十年
1、论文发表情况
人工智能过去十年发展快速,从学术研究走向商业化。本报告专注于通过分析在国际顶级期刊和会议上的人工智能领域科研论文发表情况来研究该领域的成果产出。由下图可见,从2011年以来人工智能领域高水平论文发表量整体上呈现稳步增长态势,取得了很多科研成果。这些科研成果涵盖R-CNN算法、神经机器翻译的新方法等。
▲过去十年人工智能领域国际顶级期刊会议论文数量趋势
从高水平科研论文的国家分布来看,人工智能领域论文发表量居于前十的国家依次是美国、中国、德国、英国、日本、加拿大、法国、韩国、意大利和澳大利亚,如下图所示。美国和中国的高水平论文发表量明显高于其他国家,分别位居第一、二名,中国的论文量紧随美国之后。
▲过去十年人工智能领域高水平论文发表量前十国家
研究发现,各个国家的人工智能领域高水平科研论文发布具有以下特征。
(1)开展跨国科研合作较多的国家是美国和中国
从论文的国际合作网络看,美国和中国的AI高水平论文发表均存在较多的跨国合作现象,如下图所示。其中,AI技术实力领先的美国所参与的高水平论文跨国合作最多,是各国的主要合作国家,过去十年,美国的33255篇AI高水平论文之中,出现过中国、英国、加拿大、德国、印度等30多个合作国家,合作国家数量最多;中国的跨国科研合作国家数量位居第二,在其22686篇AI高水平论文之中,出现了美国、加拿大、新加坡、英国、日本等20多个合作国家;英国和德国的AI高水平论文跨国合作国家数量均为18个。其余国家在AI高水平论文方面开展的跨国合作数量较少。
▲过去十年人工智能领域高水平论文发表国际合作国家分布
(2)中美两国是对方AI领域的重要科研合作伙伴
在AI高水平论文发表方面,美国和中国均是对方的重要科研合作伙伴。过去十年,美国在其30多个合作国家之中,与中国合作的AI高水平论文数量占比最多,为18.53%。同时,中国在其20多个合作国家之中,与美国合作的论文数量最多,占比27.16%。可见,开展国际科研合作已成为中美两国AI研究成果产出的重要方式。
(3)跨国科研合作可以提高合作本国AI研究成果的影响力
分析发现,美国的AI领域高水平论文平均引用率为44.99,中国的AI领域高水平论文平均引用率为31.88。相比而言,中国和美国合作论文的平均引用率达51.2,其影响力明显高于中国和美国各自论文的平均引用水平,这表明跨国合作的科研成果在世界人工智能研发领域的展示和交流几率大大增加。
2、获得图灵奖的人工智能技术
图灵奖(ACMA.M.TuringAward)是计算机界最负盛名、最崇高的一个奖项,有“计算机界的诺贝尔奖”之称。图灵奖是计算机协会(ACM)于1966年设立的奖项,专门奖励对计算机事业做出重要贡献的个人。其名称取自世界计算机科学的先驱、英国科学家、曼彻斯特大学教授艾伦·图灵(A.M.Turing)。
图灵奖获奖者必须是在计算机领域具有持久而重大的先进性的技术贡献,大多数获奖者是计算机科学家。第一位图灵得主是卡耐基梅隆大学的AlanPerlis(1966年),第一位女性获奖者是IBM的FrancesE.Allen(2006年)。
通过AMiner智能引擎,可以自动收集历年来图灵奖获得者及其学者画像信息(基本信息、研究兴趣等),以及该学者的论文和专著等信息。由于每年度的图灵获奖者一般在次年3月下旬由美国计算机协会(ACM)官方颁发,因此本报告统计了截至2020年颁发的近十年(2010-2019年)图灵奖得主数据。分析发现,图灵奖近十年授予领域具有如下特征。
(1)十年中三次正式颁奖给人工智能领域
图灵奖颁发的领域,在一定程度上反映了计算机科学技术发展方向的缩影。数据显示,过去十年图灵奖分别授予给了计算理论、概率和因果推理、密码学、分布式和并发系统、数据库系统、万维网、计算机系统、深度神经网络和3D计算机图形学九个领域,具体如下图所示。从获奖内容、创新角度、研究领域等维度来看,图灵奖注重原始理论创新和学科交叉,具有科研优势积累现象。
过去十年的图灵奖有三次正式授予给人工智能领域。
第一次是2010年,LeslieValiant因对计算理论的贡献(PAC、枚举复杂性、代数计算和并行分布式计算)获得图灵奖,该成果是人工智能领域快速发展的数学基础之一。
第二次是2011年,因JudeaPearl通过概率和因果推理对人工智能做出贡献而颁奖;
第三次是2018年,深度学习领域三位大神YoshuaBengio、GeoffreyHinton和YannLeCun因为在概念和工程上的重大突破推动了深度神经网络成为计算机领域关键技术而荣获图灵奖。
Hinton的反向传播(BP)算法、LeCun对卷积神经网络(CNN)的推动以及Bengio对循环神经网络(RNN)的贡献是目前图像识别、语音识别、自然语言处理等获得跳跃式发展的基础。中国科学院张钹院士在《迈向第三代人工智能》一文中也提到这5位图灵奖得主在创建第二次AI中所做出的重大贡献。
▲2010-2020年图灵奖授予的计算机领域
(2)人工智能领域获奖人数占据四分之一
由下图可见,过去十年,共有16位学者获得图灵奖。其中,包括5位人工智能领域学者获此殊荣,占比31%,这反映出人工智能在计算机学科中的地位已不容忽视。同时,人工智能领域图灵奖从初期的单独获奖者到近年来的共同获奖者,越来越呈现出高层次学者强强联合的研究趋势。
(3)美国培养并拥有八成以上的图灵奖得主
过去十年的16位图灵奖获得者之中,有13位来自美国、2位来自英国、1位来自加拿大,如下图所示。在美国的13位图灵奖得主之中,有10位是在美国本国接受的全部高等教育、2位拥有美国和其他国家教育背景、仅1位没有美国教育背景。
其中,2011年获奖者JudeaPearl拥有以色列本科教育和美国纽约大学博士教育背景;2012年图灵奖得主SilvioMicali拥有意大利本科教育和美国加州伯克利大学博士教育背景。唯一没有美国教育背景的是2018年图灵奖得主YannLeCun,他仅有法国教育背景。八成以上图灵奖得主具有美国教育或工作背景的事实,反映出美国人工智能高层次人才培养的强势竞争力。
▲2010-2020年图灵奖得主所在国家及教育背景情况
(4)欧洲培养的高层次人才中有三位被吸引到美国学习或工作并获图灵奖
从这些图灵获奖者的教育背景来看,美国与欧洲国家的学术交流非常多。YannLeCun拥有法国教育背景后到美国任职并获图灵奖;JudeaPearl和SilvioMicali分别从以色列和意大利被吸引到美国继续深造而拥有跨国双重教育背景,后来均到美国任职并在美国获得图灵奖。此外,英国的这两位图灵奖得主虽然均是在本国接受的高等教育并且获奖时都在本国,但都有过一些美国任职经历。
GeoffreyHinton博士毕业于英国爱丁堡大学,后来陆续在谷歌、卡内基梅隆大学、加州大学圣地亚哥分校等美国机构任职;TimBerners-Lee在英国牛津大学本科毕业后,也有过在麻省理工学院任职的经历。可见,美国的高等教育体系不仅培养的了自己本国的AI领域高端人才,而且从欧洲国家吸引和留住了多位领域精英。
(5)仅加拿大图灵奖得主没有任何美国教育和任职经历
在这16位图灵奖获得者之中,仅有加拿大的YoshuaBengio在本国的麦吉尔大学接受了高等教育并在本国蒙特利尔大学任职,并于2018年因在深度神经网络概念和工程上的突破而获奖。这在一定程度上反映出加拿大在人工智能领域高层次人才培养和质量上较为成功。
(6)图灵得主们在领域相关论文发表后需要平均等待37.1年之后才获奖
通过AMiner人才画像数据获取这些图灵奖得主所发表的第一篇与获奖理由相关主题的论文,计算得出该论文发表年份距离作者获得图灵奖时间,从而得到这些图灵得主的获奖时间长短,如下图所示。结果发现,图灵奖得主获奖时一般距离其首次发表获奖领域相关论文至少已经三十年以上,平均为37.1年。
其中,EdwinCatmull于2019年获得图灵奖,距离其在计算机图形学领域发表的最早论文Asystemforcomputergeneratedmovies已经过去了47年,等待获奖时间最久。而获奖等待时间最短的是TimBerners-Lee,他于1990年发表WorldWideWeb:ProposalforaHypertextProject论文,仅在26年后的2016年就因发明万维网、Web浏览器以及允许Web扩展的基本协议和算法获得图灵奖。
▲图灵奖得主的首篇领域论文发表距离获奖年份的时长
(7)八成以上图灵得主获奖时已经度过了其科研论文高峰产出期
基于AMiner平台上各位图灵奖得主的论文数据和人物画像,分析发现,图灵奖得主一般会在获奖后保持原来的研究方向,但是他们的论文发表量却减少了。有80.1%的图灵得主在获图灵奖后的论文年均产出量低于其获奖前的年均论文产出量,如下图所示,这反映出他们在获得图灵奖时已经普遍过了其学术产出高峰时期。
▲2010-2020年图灵奖得主获奖前后的年均论文发表量
值得一提的是,YoshuaBengio,JudeaPearl和MichaelStonebraker三位学者是例外,他们在获得图灵奖之后的年均论文产出量较其获奖前均有不同程度的增加,分别增加了328.07%、49.53%和12.32%。其中,YoshuaBengio在2018年获得图灵奖后论文年均发表量激增特别明显,并在2019年发表96篇论文,达到其论文产出峰值,他的AMiner学术画像及年度论文发表量如下图所示。
▲2018年图灵奖获得者YoshuaBengio的AMiner学术画像
需要指出的是,部分图灵得主在获奖后的论文产出量减少除了其学术产出减少之外,还存在以下两个原因。
一是他们可能已不再全力进行学术研究,而是转向参与社会事业等,从而导致其获奖后的论文发表量减少。例如,WhitfieldDiffie在2015年因密码学的贡献获得图灵奖后,转向致力于促进信息安全和隐私权的保护;MartinHellman因密码学的贡献获得同年的图灵奖后,转向致力于研究国际安全与核武器削减。
二是也有少量图灵得主在发表相关论文后早已投身于工业界,例如,计算机图形学先驱EdwinCatmull在研究生毕业后就在卢卡斯、皮克斯等公司就职,早已离开学术界,曾担任Pixar动画和Disney动画的总裁,四次获电影Oscar奖(1993、1996、2001和2008),其AMiner学术画像及年度论文发表量如下图所示。
▲2019年图灵奖获得者EdwinCatmull的AMiner学术画像
3、媒体评选出的重大人工智能技术
自2001年起,《麻省理工科技评论》每年都会评选出当年的“十大突破性技术”。所评选出的技术榜单曾精准预测了脑机接口、智能手表、癌症基因疗法、深度学习等诸多热门技术的崛起,在全球科技领域具有举足轻重的影响力。
分析发现,媒体评出的人类突破性技术之中近30%与人工智能相关。通过分析挖掘2010-2020年《麻省理工科技评论》评选出当年的“十大突破性技术”,发现有32项项人工智能相关技术入选榜单,占比近30%,其中包括:2013年的深度学习、2014年的神经形态芯片、2016年的语音接口与知识分享型机器人、2017年的自动驾驶卡车与强化学习,2018年的流利对话的AI助手、给所有人的人工智能和对抗性神经网络、2019年的灵巧机器人,以及2020年的微型人工智能和人工智能发现分子。具体名单如下图所示。
▲2010-2020年入选《麻省理工科技评论》“十大突破性技术”榜单的人工智能相关技术
4、国际顶会顶刊最佳论文授予领域分析
人工智能领域顶级期刊和会议每年都会在众多学术研究论文之中,通过“双盲评审”,评选出最有新意和价值的研究论文作为最佳研究论文,并授予“BestPaper”奖项。每年大会的最佳论文奖一般分两类,一类是最佳研究论文(Researchtrack),另一类是最佳应用论文(Appliedtrack)。部分会议在每年选出多篇最佳论文(分列第一、二、三名),也有部分顶会每隔几年才会选出一篇最佳论文。
从过去十多年的经验来看,国际顶会历年的最佳研究论文都会对之后很多领域的研究有着开创性的影响。因此,不论是从阅读经典文献的角度,还是从学习最新研究成果的角度来说,分析和探讨每年的最佳研究论文都极具价值。
本部分收集整理了2011-2020年期间的人工智能领域国际顶级会议最佳论文奖项第一名的全部论文(对于不区分名次的最佳论文则全部收录),再对这些论文所属领域进行分析。统计发现,过去十年荣获“最佳论文”奖项的论文来自34个国际顶会、共计440篇,其中,researchtrack最佳论文409篇,占比93%。
各会议最佳论文量的具体分布如下表所示,FOCS、IEEEVIS、ISSCC等最佳论文数量较多主要是因为该会议每年颁发3篇杰出论文奖(OutstandingPaperAward)且不区分先后名次。ICASSP等会议最佳论文量较少主要是由于存在缺失数据。
▲2011-2020年人工智能领域国际顶级会议最佳论文授予量分布(单位;篇)
从所属细分研究领域来看,这些最佳论文覆盖了机器学习、计算机视觉、自然语言处理、机器人、知识工程、语音识别、数据挖掘、信息检索与推荐、数据库、人机交互、计算机图形学、可视化、安全与隐私、计算机网络、计算机系统、计算理论、经典AI、芯片技术等18个子领域。
(1)顶会最佳论文奖呈现出较多跨领域授予现象
总体而言,尽管这些国际顶级会议将大部分的最佳论文奖都授予给了本会议所属的AI子领域,但是授予非本会议领域的最佳论文数量占比较高,达22.3%。其中,WSDM是数据挖掘领域重要国际会议,在它授予的最佳论文奖之中,有90.9%的最佳论文被授予给非数据挖掘领域的论文,在所有会议中占比最高。其次,KDD会议将88.9%最佳论文奖授予给非数据挖掘领域的论文,WWW会议将63.6%的最佳论文奖授予给非信息检索与推荐领域的论文。各个会议最佳论文授予情况具体如下表所示。
▲2011-2020年人工智能领域国际顶级会议最佳论文授予其他AI领域比例
(2)信息检索与推荐、机器学习和计算理论出现较多的跨领域授予
从跨领域授予最佳论文奖的整体数量来看,信息检索与推荐、机器学习和计算理论是获得最佳论文奖项数量较多的三个领域,占比均超过10%,详细情况如下图所示。这反映出这三个子领域的跨领域研究成果所获的专业认可度较高,在一定程度上促进了相关技术在多个AI子领域的快速发展和进步。
▲人工智能领域国际顶级会议最佳论文奖跨AI子领域授予分布图
从来源会议来看,信息检索与推荐领域最佳论文除了被RecSys、SIGIR和WWW本领域会议最多授予之外,也较多被数据挖掘领域会议WSDM、数据库领域的SIGMOD和VLDB授予最佳论文奖,如下图所示。
▲信息检索与推荐领域最佳论文跨领域授予会议示例
(3)机器学习技术成果集中在2016-2018年获得较多奖项认可
过去十年顶会最佳论文授予技术领域的年度趋势如下图所示,其中,色块颜色代表该项技术在某项会议所被授予的最佳论文数量,色块颜色越深表示论文数量越多。
从最佳论文奖被授予领域的年度趋势来看,机器学习领域过去十年内最佳论文在2016年被授予最多,为9篇,其次是2017和2018年,相关最佳论文数量均为8篇。从来源会议来看,共有14个顶会将最佳论文奖分别授予给机器学习领域。其中,最佳论文奖授予量较多的两大会议是InternationalConferenceonMachineLearning(ICML)和InternationalConferenceonLearningRepresentations(ICLR),分别为13和12篇。
▲人工智能领域国际顶刊顶会最佳论文授予领域年度趋势
4、安全与隐私领域最佳论文授予数量呈现增多趋势
随着人工智能快速发展和应用,许多领域开始注重技术的安全与隐私性。这体现在逐年增多的领域最佳论文数量上。尤其是2014年之后,安全与隐私领域年度最佳论文数量均超过5篇。
过去十年来,CCS、ICML、OSDI、S&P、SIGCOMM和WWW等顶会均曾授予过安全与隐私领域的最佳论文奖。安全与隐私的最佳论文授予主要来自于IEEESymposiumonSecurityandPrivacy(S&P)和ACMConferenceonComputerandCommunicationsSecurity(CCS)两大会议。
5、国际顶会顶刊领域高影响力论文分析
论文引用量是衡量一个科研文献被业界认可度的标志,也是该文献影响力的重要体现。本部分针对人工智能国际顶会顶刊2011-2020年期间的所发表论文的引用量特征及所属领域进行分析。结果分析发现,某一学术会议中引用量最高的论文未必是该会议授予最佳论文奖的论文,反之亦然。
分析还发现,人工智能不同子领域论文的最高引用量的量级跨度很大。如下图所示,2011-2020年期间人工智能国际顶会顶刊最高引用量前十论文研究以机器学习领域为首,其次是计算机视觉领域研究论文。机器学习和计算机视觉领到域论文的引用量级均达到25万次以上,明显高于其他子领域最高引用论文的引用量。在所有子领域之中,知识工程领域论文的引用量级最少,不足于机器学习领域论文引用量的2%。
▲2011-2020年人工智能国际顶会顶刊各子领域最高引用量前十论文的引用量分布
具体来看,人工智能各个子领域在过去十年中出现在国际顶级会议期刊上的最高影响力论文相关信息如下表所示。其中,计算机视觉领域最高影响力论文是2016年CVPR上、以FacebookAIResearch何恺明为第一作者的“DeepResidualLearningforImageRecognition”文章,其引用量已超过6万。
机器学习领域引用量最高的论文是发表在2015年ICLR会议上的“Adam:AMethodforStochasticOptimization”,该文是由GoogleBrain的DiederikP.,Kingma和加拿大多伦多大学的助理教授JimmyLeiBa联合发表,目前引用量将近6万。
▲2011-2020年人工智能子领域最高影响力论文
机器学习领域,影响力排名前10论文的引用率都超过万次,且半数以上论文引用率超过2万次,如表4-6所示。从论文研究主题来看,这这10篇最高影响力论文全部都是与深度学习相关的。从论文来源来看,这10篇最高影响力论文之中,有5篇来自NeurIPS、3篇来自ICLR、2篇来自ICML。
居于首位的是2015年ICLR会议上由GoogleBrain的DiederikP.,Kingma和加拿大多伦多大学的助理教授JimmyLeiBa联合发表的“Adam:AMethodforStochasticOptimization”论文。影响力排名第二位的是Apple公司研究员IanJ.Goodfellow发表在NeurIPS2014上的一篇论文“GenerativeAdversarialNets”,该文也是GANs的开山之作。影响力排名第三位的论文是Facebook科学家TomasMikolov发表在NeurIPS2013上的“DistributedRepresentationsofWordsandPhrasesandtheirCompositionality”。
▲2011-2020年机器学习领域最高影响力论文前十
计算机视觉领域,最高影响力前十论文如表4-7所示。其中,最高引用的论文是发布于2016年CVPR上、以FacebookAIResearch何恺明为第一作者的“DeepResidualLearningforImageRecognition”文章,其引用量已超过6万。
这篇论文也荣获了当年CVPRBestPaper奖项,联合作者还包括旷视科技的研究员张祥雨、首席科学家与研究院院长孙剑,以及当时就职于Momenta任少卿。该文是一篇非常经典的神经网络的论文,主要通过构建了一种新的网络结构来解决当网络层数过高之后更深层的网络的效果没有稍浅层网络好的问题,并且做出了适当解释以及用ResNet残差网络解决了问题。
▲2011-2020年计算机视觉领域最高影响力论文前十
自然语言处理领域,过去十年中最高影响力前十论文的具体信息如下表所示。其中,最高引用量论文是Google研究员JeffreyPennington在2014年EMNLP会议发表的论文“Glove:GlobalVectorsforWordRepresentation”,这篇论文提出的单词表示模型是通过仅训练单词-单词共现矩阵中的非零元素,而不是整个稀疏矩阵或大型语料库中的单个上下文窗口,来有效地利用统计信息。该模型产生一个具有有意义子结构的向量空间,在相似性任务和命名实体识别方面优于相关模型。
▲2011-2020年自然语言处理领域最高影响力论文前十
6、过去十年十大人工智能研究热点
过去十年十大AI研究热点分别为:深度神经网络、特征抽取、图像分类、目标检测、语义分割、表示学习、生成对抗网络、语义网络、协同过滤和机器翻译。
▲AMiner评选出的近十年十大AI研究热点
(1)深度神经网络
深度神经网络是深度学习的基础,又被称为深度前馈网络(DFN)、多层感知机(Multi-Layerperceptron,MLP),可以理解为是有很多隐藏层的神经网络。深度神经网络可以在没有大量标记数据的情况下解决问题。代表算法包括卷积神经网络、循环神经网络、递归神经网络等。
深度神经网络的被引用量保持了较长时间的稳定平稳增长;深度卷积神经网络技术则于2014年开始获得更多引用。目前,深度神经网络(DNN)是许多人工智能应用的基础,从自动驾驶汽车、癌症检测到大型游戏等。在这许多领域中,DNN实现了超越人类的准确率。
数据显示,过去十年中,有5405篇以卷积神经网络为研究主题的论文在人工智能国际顶会顶刊论文中发表,其总引用量达299729,并且在这些顶会顶刊论文引用量排名前十的论文中出现过125次。该技术的最终指数评分为98.16,位列过去十年最热门AI研究主题之首。
(2)特征抽取
特征抽取(FeatureExtraction)热门是信息检索与推荐中的一项技术,专指使用计算机提取一组测量值中属于特征性的信息的方法及过程,并将所抽取出的有效实体信息进行结构化存储。目前特征抽取已引入机器学习、深度学习、神经网络技术,其中,神经网络计算已应用于图片特征抽取。
针对某个特定图片,通过卷积神经网络对图片进行特征抽取得到表征图片的特征,利用度量学习方法如欧式距离对图片特征进行计算,对图片距离进行排序,得到初级检索结果,再根据图片数据的上下文信息和流形结构对图像检索结果进行重排序,从而提高图像检索准确率,得到最终的检索结果。
数据显示,过去十年中,有1747篇以特征抽取为研究主题的论文在人工智能国际顶会顶刊论文中发表,其总引用量达95205,并且在这些顶会顶刊论文引用量排名前十的论文中出现过8次。该技术的最终评分为21.51,位列过去十年AI研究热点亚军。
(3)图像分类
图像分类(ImageClassification)是指计算机利用算法从给定的分类集合中给某个特定图像正确分配一个标签的任务,其目标是将不同的图像划分到不同的类别中,并实现最小的分类误差,较多应用于计算机视觉、信息检索与推荐领域。2012年,加拿大认知心理学家和计算机科学家GeoffreyEverestHinton的博士生AlexKrizhevsky在ILSVRC将深度学习用于大规模图像分类中并提出了CNN模型,其计算效果大幅度超越传统方法,获得了ILSVRC2012冠军,该模型被称作AlexNet。从AlexNet之后,涌现了一系列CNN模型,不断地在ImageNet上刷新成绩。目前的深度学习模型的识别能力已经超过了人眼。
数据显示,过去十年中,有612篇以图像分类为研究主题的论文在人工智能国际顶会顶刊论文中发表,其总引用量达50309,并且在这些顶会顶刊论文引用量排名前十的论文中出现过16次。该技术的最终评分为14.14,位列过去十年最热门AI研究主题第三名。
(4)目标检测
目标检测(ObjectDetection)作为计算机视觉和图像处理领域一个分支,是指利用图像处理与模式识别等领域的理论和方法,检测出数字图像和视频中存在的特定类别的目标对象,确定这些目标对象的语义类别,并标定出目标对象在图像中的位置。对象检测是对象识别的前提,具有很大发展潜力。
对象检测已经有许多有用有趣的实际应用,如人脸识别、行人检测、视觉搜索引擎、计数、航拍图像分析等。深度学习模型在图像分类任务中碾压了其他传统方法。很多对象检测的新方法和新应用推动了深度学习最前沿的科技发展。
过去十年中,有472篇以目标检测为研究主题的论文在人工智能国际顶会顶刊论文中发表,其总引用量达49602次,并且在这些顶会顶刊论文引用量排名前十的论文中出现过13次。该技术的最终评分为12.73,位列最热门AI研究主题第四名。
(5)语义分割
语义分割(SemanticSegmentation)是让计算机根据图像的语义进行分割,判断图像中哪些像素属于哪个目标。近年来,许多语义分割问题正在采用深度学习技术来解决,最常见的是卷积神经网络,在精度上大大超过了其他方法以及效率。目前语义分割的应用领域主要有:地理信息系统、无人车驾驶、医疗影像分析和机器人等领域。
过去十年中,有275篇以语义分割为研究主题的论文在人工智能国际顶会顶刊论文中发表,其总引用量达27893次,并且在这些顶会顶刊论文引用量排名前十的论文中出现过23次。该技术的最终评分为12.01,位列最热门AI研究主题第五名。
(6)表示学习
表示学习(RepresentationLearning),是指将原始数据转换成能够被机器学习的一种深度学习技术。它能够从复杂的原始数据中提炼有效特征,剔除无效或者冗余信息,形成可用的数据表示。在知识表示学习中,词嵌入(WordEmbedding)是自然语言处理的重要突破之一,它可以将词表示为实数域向量,进而为机器学习和深度学习提供模型训练的基础。
近些年很多专家和学者利用词嵌入的表示学习原理进行相关领域的研究,主要的表示方法包括Word2Vec、One-hot、词共现等。这些方法已经成为当下人工智能技术应用的基础,为机器学习提供了高效的表示能力。
过去十年中,有711篇以表示学习为研究主题的论文在人工智能国际顶会顶刊论文中发表,其总引用量达49892次,并且在这些顶会顶刊论文引用量排名前十的论文中出现过8次。该技术的最终评分为11.88,位列最具影响力AI技术第六名。
(7)生成对抗网络
生成对抗网络(GenerativeAdversarialNetworks,GAN)是用于无监督学习的机器学习模型,由IanGoodfellow等人在2014年提出。由神经网络构成判别器和生成器构成,通过一种互相竞争的机制组成的一种学习框架。GAN功能强大,学习性质是无监督的,也不需要标记数据。
传统的生成模型最早要追溯到80年代的RBM,以及后来逐渐使用深度神经网络进行包装的AutoEncoder,然后就是现在的生成模型GAN。GAN具有大量的实际用例,如图像生成、艺术品生成、音乐生成和视频生成。此外,它还可以提高图像质量,并且完成图像风格化或着色、面部生成以及其他更多有趣的任务。
过去十年在人工智能国际顶会顶刊论文中发表有362篇以生成对抗网络为研究主题的论文,其总引用量达24536次,并且在这些顶会顶刊论文引用量排名前十的论文中出现过22次。该技术的最终评分为11.44,位列最热门AI研究主题第七名。
(8)语义网络
语义网络(SemanticNetwork)是一种以网络格式表达人类知识构造的形式,是人工智能程序运用的表示方式之一,相关研究主要集中在信息检索与推荐、知识工程领域。语义网络是一种面向语义的结构,它们一般使用一组推理规则,规则是为了正确处理出现在网络中的特种弧而专门设计的。语义网络可以深层次地表示知识,包括实体结构、层次及实体间的因果关系;无推理规律可循;知识表达的自然性可以直接从语言语句强化而来。
过去十年在人工智能国际顶会顶刊论文中有1192篇以语义网络为研究主题的论文发表,总引用量达44897次,并且在这些顶会顶刊论文引用量排名前十的论文中出现过2次。语义网络技术的最终评分为10.60,位列最热门AI研究主题第八名。
(9)协同过滤
协同过滤(CF)是推荐系统使用的一种技术,通过收集来自多个用户的偏好、兴趣、评价标准等用户行为数据来过滤信息,并自动预测(过滤)用户兴趣的方法,为用户提供有针对性的推荐及其所需信息。大多数协同过滤系统都应用基于相似度索引的技术。协同过滤是解决信息超载问题的一个有效办法。无论是基于用户-用户的协同过滤,还是项目-项目的协同过滤,都有效地提高了用户信息的使用效率。
过去十年在人工智能国际顶会顶刊论文中有289篇以协同过滤为研究主题的论文,其总引用量达36681次,并且在这些顶会顶刊论文引用量排名前十的论文中出现过12次。该技术的最终评分为9.98,位列最热门AI研究主题第九名。
(10)机器翻译
机器翻译(MachineTranslation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,通常指自然语言之间句子和全文的翻译。它是自然语言处理(NaturalLanguageProcessing)的一个分支,与计算语言学(ComputationalLinguistics)、自然语言理解(NaturalLanguageUnderstanding)之间存在密不可分的关系。
机器翻译是人工智能的终极目标之一,其核心语言理解和语言生成是自然语言处理的两大基本问题。近几年来,随着深度学习技术的发展,神经机器翻译取得了巨大进展,其生成的译文接近自然语句,成为了主流语言学习模型。
过去十年在人工智能国际顶会顶刊论文中发表有389篇以机器翻译为研究主题的论文,其总引用量达23119次,并且在这些顶会顶刊论文引用量排名前十的论文中出现过14次。该技术的最终评分为8.84,成为AI研究热点第十名。
02.
AI领域高层次人才分析
1、全球AI领域高层次人才
过去十年,全球人工智能发展迅速。中国、美国、欧盟、英国、德国等国家纷纷从战略上布局人工智能,加强顶层设计和人才培养。本报告数据显示,全球人工智能领域学者数量共计155408位,覆盖120多个国家,主要集中在北美洲、欧洲、东亚地区。
人工智能领域论文发表量反映了一个国家在领域的科研实力。在AI领域论文发表量TOP10的国家之中,美国、中国和德国的论文产出量分别位前三名,其余国家(英国、加拿大、日本、法国、澳大利亚、韩国和新加坡)领域论文产出量均在2万篇以下。
其中,美国在AI领域的论文发表数量和人才数量都位于全球第一,有近四成的全球AI领域论文产出是来自美国,并且美国AI学者数量约占全球领域学者总量的31.6%。
中国在人工智能领域的论文发表数量(25418篇)和人才数量(17368位)仅低于美国,同时,大幅领先于其他国家。这反映出中国近年来发布的从产业发展、教育等各个方面支持人工智能发展的一系列支持政策,以及不断加强人才培养和补齐人才短板的行动已见成效。
从子领域的领先国家来看,美国在人工智能领域具有明显的科研产出优势,在几乎所有子领域的论文产出量均居于全球首位。中国的AI科研产出水平在自然语言处理、芯片技术、机器学习、信息检索与挖掘等10多个子领域都紧随美国之后,并且,在多媒体、物联网领域的论文产出量超过美国、居于全球第一;而在人机交互、知识工程、机器人、计算机图形、计算理论领域,中国还需努力追赶。
AI高层次学者是指入选AI2000榜单的2000位人才。由于存在同一学者入选不同领域的现象,经过去重处理后,AI高层次学者共计1833位。从这些高层次学者分布看,如下图所示,AI领域全球高层次学者覆盖全球37个国家,主要集中在北美洲的美国地区;欧洲中西部也有一定的高层次学者分布;亚洲的高层次人才主要分布于中国、新加坡及日韩等地区;其他诸如南美洲、非洲等地区的高层次学者数量稀少。
▲全球人工智能领域高层次学者分布
从国家角度看AI高层次学者分布,美国AI高层次学者的数量最多,有1244人次,占比62.2%,超过总人数的一半以上,且是第二位国家数量的6倍以上。中国排在美国之后,位列第二,有196人次,占比9.8%。德国位列第三,是欧洲学者数量最多的国家;其余国家的学者数量均在100人次以下。人工智能领域高层次学者人数TOP10的国家如下图所示。
▲人工智能领域高层次学者数量TOP10国家
总体来看,全球范围内,美国和中国的机构在人工智能领域的论文产出和学者数量较多,占据了AI领域论文量排名前10机构的全部席位。从AI高层次人才分布看,全球AI高层次人才隶属于各个国家的高等院校或高科技公司的科研部门。
如下图所示,全球人工智能领域高层次学者量TOP10机构之中,位居首位的是美国的谷歌公司,拥有185人,也是唯一一家高层次学者数过百的机构;从国家分布来看,清华大学是唯一入选TOP10的中国机构,其余均为美国机构,且美国机构高层次学者总体人数遥遥领先。
▲全球人工智能领域高层次学者量TOP10机构
从子领域论文量来看,美国的大学和科技机构在AI各个细分方向上的发展较为均衡,且在自然语言处理、芯片技术、机器学习、信息检索与挖掘、人机交互等10多个子领域的发展居于全球领先席位。这反映出美国在人工智能领域的顶级实力。
中国的AI机构在语音识别、经典AI、计算机网络、多媒体、可视化和物联网等领域实力较强,进入全球先进行列。这些机构主要是位于北京的清华大学、中科院和北京邮电大学,以及浙江大学。
2、中国AI领域高层次人才
过去十年,我国人工智能发展迅猛。2017年,人工智能首次被写入全国政府工作报告,我国确定新一代人工智能发展三步走战略目标,并将人工智能上升为国家战略层面。本报告数据显示,我国人工智能领域学者数量共计17368位,覆盖100多个国内城市。从地域分布来看,我国AI人才主要集中在京津冀、长三角和珠三角地区。
国内AI领域高层次人才也主要分布在京津冀、长三角和珠三角地区,如下图所示。其中,京津冀地区(主要是北京市)在AI领域的高层次人才数量最多。长三角地区也有较多的AI高层次人才分布。相比之下,内陆地区领域高层次人才较为缺乏。在学者分布地图中,颜色越深,表示学者越集中;颜色越浅,表示学者越稀少。
▲我国人工智能领域高层次人才的省市分布图
从AI高层次学者分布来看,北京仍是拥有AI高层次学者数量最多的国内城市,有79位,占比45.4%,接近于国内AI高层次人才的一半,如下图所示。北京作为政治中心、文化中心、国际交往中心、科技创新中心具有先天优势,拥有数量众多的AI企业和多所知名高校和研究机构,北京的高水平AI论文发表量和高层次学者量明显领先于其他国内城市。同时,从子领域发展来看,北京在AI各个细分方向上的发展较为均衡,相关论文产出量均居于全国领先位置。
▲人工智能领域高层次学者数量TOP10的中国城市
国内人工智能领域研究领先的机构主要以北京、香港、杭州、上海等地的高等院校为主。北京在人工智能领域的资源优势,该城市拥有清华大学、北京大学、中国科学院等知名高校。杭州和香港的机构也处于AI子领域研究前列,主要由于前者拥有阿里巴巴和浙江大学,后者则因其香港科技大学和香港中文大学等实力高校。
在国内机构之中,北京的清华大学不仅拥有AI领域学者数量最多,而且所拥有的领域高层次人才数量也居于国内首位,有27位。国内高层次AI人才基本都隶属于高校。香港中文大学、浙江大学和中国科学院在人工智能领域的高层次学者数量分别为16、14和11位。其他的国内机构所拥有的AI领域高层次人才数量均不足十位,如下图所示。
▲人工智能领域高层次学者数量TOP10的中国机构
中国AI领域高层次人才培养从2018年起开始重点发展,主要由高校通过成立AI学院研究院立、设立AI专业的方式进行培养。教育部在《高等学校人工智能创新行动计划》(教技〔2018〕3号)中提出,要加强人工智能领域专业建设,形成“人工智能+X”复合专业培养新模式。
到2020年建设100个“人工智能+X”复合特色专业,建立50家人工智能学院、研究院或交叉研究中心,并引导高校通过增量支持和存量调整,加大人工智能领域人才培养力度。到2020年,高校要基本完成新一代人工智能发展的高校科技创新体系和学科体系的优化布局。到2030年,高校要成为建设世界主要人工智能创新中心的核心力量和引领新一代人工智能发展的人才高地。
教育部于2019年3月颁布《关于公布2018年度普通高等学校本科专业备案和审批结果的通知》,将人工智能专业列入新增审批本科专业名单,专业代码为080717T(T代表特设专业),学位授予门类为工学。在此之前,国内没有高校在本科阶段设置人工智能专业。
2020年2月,教育部颁布《关于公布2019年度普通高等学校本科专业备案和审批结果的通知》。统计结果显示,人工智能方面,本次全国范围内获得人工智能专业首批建设资格的共有180所,相比2018年的35所,增加414%,反映出人工智能专业的热度攀升。
截至目前,国内共有215所高校成立“人工智能”本科专业。这些高校之中,有60所双一流大学(占比28%),其他155所为普通本科院校。
从地域分布看,2019年度新增人工智能专业较多的省份依次是山东14所、江苏13所、北京11所、安徽10所、河南10所、四川10所,其余省份新增人工智能专业的高校数量均不足10所。但这些数字加起来占全国高校总量比例仍然较小,高校人工智能本科教育仍处于起步和发展阶段。
在AI人才紧缺,国家政策推动AI发展趋势等因素影响下,相比于建设人工智能专业,很多高校更愿意设立一个人工智能研究独立学院。截至2019年6月,至少有38所高校设立了独立人工智能学院,全面开展本科阶段、研究生阶段的教育,并且在2019年开始以人工智能专业招收本科生。
据统计,截止到2019年年底,我国已经有66所高校成功建设人工智能学院、研究院、研究中心或研究所,超额完成了教育部在《高等学校人工智能创新行动计划》中强调的到2020年在全国高校中建立50家人工智能学院、研究院或交叉研究中心的目标。
总之,中国各大高校设立人工智能一级学科、建立人工智能学院,有助于精准布点人工智能相关专业以满足国家和区域的产业发展需求,有助于加快建设一流人才队伍和高水平创新团队、进一步推动国际学术交流与合作、专业和教材建设,提高人才培养质量,推动科技成果转化。
03.
人工智能专利分析
专利是创新成果的应用表现形式。本部分将通过人工智能领域专利分析,挖掘该技术的创新应用情况。以墨创全球专利数据库作为数据来源,使用行业专家和相关技术领域专利审查专家共同给出的人工智能领域关键词在标题和摘要中进行检索,搜索时间范围限定为2011-2020年。
专利数据分析发现,随着核心算法的突破、计算能力的迅速提升以及海量数据的支撑,过去十年的人工智能专利申请量呈现逐渐上升态势。
1、全球AI专利分析
全球范围内,过去十年人工智能领域的专利申请量521264,总体上呈逐年上升趋势,如下图所示。
▲全球人工智能专利申请量年度变化趋势
全球AI专利申请数量排名领先的国家/地区如下图所示。从图中可以看出,目前,全球人工智能专利申请集中在中国、美国、日本、韩国。其中,中国和美国处于领先地位,遥遥领先其他国家。中国专利申请量为389571,位居世界第一,占全球总量的74.7%,是排名第二的美国的8.2倍。
▲全球AI专利申请量Top10国家
过去十年,全球人工智能专利申请之中,将近一半的申请人是来自于企业。高校和研究所的相关申请量共计约两成。
▲全球AI专利申请类型分布
人工智能专利申请量前十的机构集中在日本、中国、韩国和美国。其中,日本的佳能是一家致力于图像、光学和办公自动化产品的公司,该公司的绝大多数专利都与成像有关,申请量最高的人工智能功能应用类别是计算机视觉。美国IBM公司的专利申请很多都与IBM的自然语言处理和机器学习技术有关。中国的国家电网的专利申请多与电网控制、配电利用网络、风电场、绿色能源等领域的人工智能开发有关。
▲全球AI专利申请人排名TOP10
2、中国AI专利分析
过去十年,中国人工智能领域的专利申请量389571,约占全球申请量的74.7%。总体上,国内的人工智能相关专利申请量呈逐年上升趋势,并且在2015年后增长速度明显加快,如下图所示。
▲中国人工智能专利申请量年度趋势
中国各省市AI专利申请数量的分布情况如下图所示。从图中可以看出,广东省的AI专利申请量以72737位居第一,比排名第二的北京市(50906)多出42.8%,具有突出优势。前十名的省份主要分布在东部、中部、西部等地区,分布较为均衡,但是以东部省市居多,江浙沪三省市均位居前五名。这与这些地区的经济水平、发展程度、科研投入及知识产权保护等因素密切相关。
▲全国AI专利申请量TOP10省份
中国AI专利申请数量排名前十的机构如下图所示,包括5家企业和5所高校,主要分布在广东、北京、浙江和四川。目前中国在AI专利领域的创新主要还是依靠高科技互联网企业和高校科研机构等方面的共同努力。国家电网专利申请量最多,其次是腾讯科技,体现出这两家企业在AI领域的创新能力比较突出,对相关技术领域的引领作用较强。
▲中国AI专利申请量TOP10机构
04.
未来机遇与挑战
1、未来发展机遇
目前,全球已有美国、中国、欧盟、英国、日本、德国、加拿大等10余个国家和地区纷纷发布了人工智能相关国家发展战略或政策规划,用于支持AI未来发展。这些国家几乎都将人工智能视为引领未来、重塑传统行业结构的前沿性、战略性技术,积极推动人工智能发展及应用,注重人工智能人才队伍培养。这是AI未来发展的重要历史机遇。
美国:指定AI研究为政府优先事项并调入更多支持资金和资源。美国高度重视人工智能全面发展,包括立法、研发投资、人才培养等多个方面纷纷给予支持。2016年,美国国家科学技术委员会(NSTC)发布《国家人工智能研发战略计划》全面布局人工智能发展。与此同时,美国总统办公室发布报告《为未来人工智能做好准备》,以应对人工智能带来的潜在风险,以及《人工智能、自动化与经济报告》,强调人工智能驱动的自动化对经济发展的影响。
2018年,美国白宫首次将人工智能指定为政府研发的优先事项,并且成立人工智能特别委员会,旨在协调联邦政府各机构之间人工智能研发优先事项,并向白宫提出行动建议,以确保美国人工智能技术的领导地位。美国国防部高级研究项目局宣布投资20亿美元开发下一代人工智能技术。美国国会两院讨论包括《人工智能未来法案》《人工智能就业法案》和《国家安全委员会人工智能法案》等法案。五角大楼成立了“联合人工智能中心”,确保国防部对人工智能相关数据信息的高效利用。
2019年,美国白宫科学和技术政策办公室(OSTP)发布了由总统特朗普签署的《美国人工智能倡议》,将人工智能的重要性上升到美国经济安全和国家安全的层面,要求调配更多联邦资金和资源转向人工智能研究,并呼吁美国主导国际人工智能标准的制定,开展人工智能时代美国劳动力培养的研究。白宫还对《国家人工智能研发战略计划》进行了更新,确定了联邦投资于人工智能研发的优先事项。
美国防部网站公布《2018年国防部人工智能战略摘要——利用人工智能促进安全与繁荣》,并成立联合人工智能中心(JAIC),旨在加快人工智能快速赋能关键作战任务,统筹协调人工智能研发项目,积极维持美国在AI方面的战略地位。同年,国防授权法案批准设立人工智能国家安全委员会,该委员会旨在全面审查、分析人工智能技术及系统;商务部成立白宫劳动力委员会,以帮助美国储备人工智能等新兴科技发展所需的人才;国家科学基金会持续资助人工智能基础研究领域。
欧盟:重视并推动AI发展中的伦理和安全理念。欧盟在人工智能发展战略中坚持推行以人为本的理念,在2018年发布了《欧盟人工智能战略》,推动欧盟人工智能领域的技术研发、道德规范制定以及投资规划,并计划在2020年底至少投入200亿欧元。随后,欧盟宣布在“地平线2020”研究与创新项目中对人工智能研发投入15亿欧元的专项资金,将资助创建欧洲人工智能生态系统的支撑平台。
欧盟专门设立了高级别人工智能专家组(AIHLEG),就人工智能的投资和政策制定提出建议,为人工智能的道德发展制定指导方针。该专家组制定了《可信赖的人工智能道德准则草案》,提出实现可信赖人工智能的道德准则和具体要求,包括数据保护和数据透明度等问题。该草案是欧盟为增加政府和私营部门人工智能领域合作的提出的三大战略之一,三大战略包括:增加政府和私营部门对人工智能的投资、为人工智能可能引发的社会和经济变革做好准备、建立适当的人工智能道德和法律框架。
此外,欧盟成员国还于2018年签署了《人工智能合作宣言》,就人工智能可能引发的社会、经济、伦理道德和法律等重要问题开展合作,确保欧洲在人工智能研发和应用上具有强大竞争力。随后,又发布《促进人工智能在欧洲发展和应用的协调行动计划》,提出设计伦理和设计安全两大关键原则,旨在使欧盟成为发展前沿、符合道德伦理、安全的人工智能技术的世界领先地区,强调将通过以人为本的方式促进人工智能技术发展。
2019年,欧盟启动了AIFOREU项目,建立人工智能需求平台、开放协作平台,整合汇聚21个成员国79家研发机构、中小企业和大型企业的数据、计算、算法和工具等人工智能资源,提供统一开放服务。此外还发布了《人工智能伦理准则》,以提升人们对人工智能产业的信任。
英国:不断加大政策、资金、人才和国际合作方面的布局力度。英国政府在2017年发布的《产业战略:建设适应未来的英国》中,确立了人工智能发展的四个优先领域:将英国建设为全球AI与数据创新中心;支持各行业利用AI和数据分析技术;在数据和人工智能的安全等方面保持世界领先;培养公民工作技能。随后,发布了《在英国发展人工智能》,建议建立人工智能和数据科学的艾伦·图灵研究所,旨在与其他公共研究机构建立合作,统筹协调针对人工智能研究的计算能力。
2018年,英国政府发布《产业战略:人工智能领域行动》,这是英国政府和产业界做出的首份发展人工智能的承诺,将采取切实行动推进人工智能发展,促进英国人工智能和数字驱动的经济蓬勃发展。英国政府在《人工智能领域行动》等多个人工智能方面的政策文件中,提出政府提高研发经费投入,优先支持关键领域的创新等措施。
这些举措包括:未来10年,英国政府将研发经费(包括人工智能技术)占GDP的比例提高到2.4%;2021年研发投资将达125亿英镑;从“产业战略挑战基金”中拨款9300万英镑,用于机器人与AI技术研发等。英国政府也积极推出针对初创企业的激励政策。
近年来,英国政府不断加大政策、资金、人才、国际合作等方面的布局力度。在政策方面,据英国政府2018年推出的《工业战略:人工智能产业政策》报告显示,过去3年英国发布了包括人工智能产业在内的工业战略白皮书、人工智能产业政策等各项措施,并成立了人工智能发展委员会、数据伦理与创新中心、人工智能发展办公室及工业战略挑战基金等相关机构,以推动人工智能的发展。在资金方面,英国规划制定了金额超9亿英磅(约78.7亿元人民币)的一揽子人工智能产业扶持计划,还将投资谷歌、亚马逊、“人工智能元素”(ElementAI)以及“慧与科技”(HPE)等一系列跨国科技公司。
2019年2月,英国政府宣布投资1300万英镑(约1.13亿元人民币)支持40个人工智能及数据分析项目,旨在提升生产力,改善英国的专业服务。在人才方面,自2017年起,英国计划将在4年内培育8000名计算机科学教师;未来7年,通过培训让5000名学生具备多样化的数字技术;支持新增450个与人工智能相关的博士点;加大包括人工智能人才在内的海外特殊人才引进力度,每年增加1000名至2000名人才引进。
在国际合作方面,2018年7月,英国与法国签订五年协议,在人工智能等数字产业领域加强双方高端科研中心的合作;2019年1月,英国决定与日本在机器人、数据等领域加强深度合作。
德国:用AI+工业4.0打造“人工智能德国造”品牌。德国政府早在2013年提出的“工业4.0”战略中,就已经涵盖了人工智能。2018年,德国联邦政府颁布了《高科技战略2025》,提出“推进人工智能应用,使德国成为人工智能领域世界领先的研究、开发和应用地点之一”,还明确提出建立人工智能竞争力中心、制定人工智能战略、组建数据伦理委员会、建立德法人工智能中心等。
在《联邦政府人工智能战略》中制定三大战略目标,以及包括研究、技术转化、创业、人才、标准、制度框架和国际合作在内的12个行动领域,旨在打造“人工智能德国造”品牌。在资金投入方面,德国政府宣布将首先投入5亿欧元用于2019年及之后几年的人工智能发展,并将在2025年底累计投入30亿欧元。德国经济和能源部在2019年发布的《国家工业战略2030》(草案)中,也多次强调人工智能的重要性。
2020年1月15日,德国柏林工业大学宣布成立新的人工智能研究所,进一步开展人工智能科研和人才培养。德国联邦政府将在人工智能战略框架内对该研究所追加预算,预计到2022年时,研究所将获得3200万欧元财政支持。柏林市政府也将为研究所新增人工智能岗位。
日本:主张构建有效且安全应用的“AI-Ready社会”。日本政府积极发布国家层面的人工智能战略、产业化路线图。2016年成立了人工智能技术战略委员会,作为人工智能国家层面的综合管理机构,以制定人工智能研究和发展目标以及人工智能产业化路线图,负责推动总务省、文部省、经产省以及下属研究机构间的协作,进行人工智能技术研发。该委员会有11名成员,分别来自学术界、产业界和政府。
2017年,日本发布《人工智能技术战略》,确定了在人工智能技术和成果商业化方面,政府、产业界和学术界合作的行动目标。2018年,日本发布《综合创新战略》提出要培养人工智能领域技术人才,确保在2025年之前每年培养和录用几十万名IT人才。此外,还发布了《集成创新战略》,将人工智能指定为重点发展领域之一,提出要加大其发展力度,同时强调要加强人工智能领域人才培养。
2018年12月27日,日本内阁府发布《以人类为中心的人工智能社会原则》推进人工智能发展,从宏观和伦理角度表明了日本政府的态度,主张在推进人工智能技术研发时,综合考虑其对人类、社会系统、产业构造、创新系统、政府等带来的影响,构建能够使人工智能有效且安全应用的“AI-Ready社会”,于2019年3月正式公布。
此原则是将人工智能(ArtificialIntelligence,AI)视为未来的关键科技,但在研发应用上,须以联合国的持续发展目标(SustainableDevelopmentGoals,SDGs)为基础,以落实日本“超智能社会”(Society5.0)为准则,其基本理念是Dignity、Diversity&Inclusion及Sustainability,并且建构“尊重人类尊严”、“不同背景的大众皆能追求幸福”及“持续性”的社会。
韩国:提升领域竞争力发展成为“AI强国”。韩国政府于2019年12月17日公布“人工智能(AI)国家战略”,以推动人工智能产业发展。该战略旨在推动韩国从“IT强国”发展为“AI强国”,计划在2030年将韩国在人工智能领域的竞争力提升至世界前列。
并且,提出构建引领世界的人工智能生态系统、成为人工智能应用领先的国家、实现以人为本的人工智能技术。在人工智能生态系统构建和技术研发领域,韩国政府将争取至2021年全面开放公共数据,到2024年建立光州人工智能园区,到2029年为新一代存算一体人工智能芯片研发投入约1万亿韩元。
其他国家:
加拿大在2017年宣布了泛加拿大人工智能战略,承诺提供1.25亿加元的加拿大人工智能研究与开发。这一战略旨在增加加拿大的AI和毕业生人数。在埃德蒙顿、蒙特利尔和多伦多建立科学卓越中心。建立加拿大在AI经济、伦理、政策和法律研究方面的全球思想领导地位。
法国于2018年3月发布AI战略,将投入1.5亿欧元把法国打造成AI研究、训练和行业的全球领导者。该计划由四个部分组成,一是宣布国家人工智能计划,将在法国各地建立一个由四五个研究机构组成的网络;二是将制定一项开放数据政策,推动人工智能在医疗等领域应用;三是政府将创建一个监管和金融框架,以支持国内“人工智能冠军企业”的发展;四是政府将制定道德规范。
印度在2018年6月发布《人工智能国家战略》,探求如何利用人工智能来促进经济增长和提升社会包容性,寻求一个适用于发展中国家的AI战略部署。该战略旨在提高印度人的工作技能,投资于能够最大限度地提高经济增长和社会影响的研究和部门,以及将印度制造的人工智能解决方案推广到其他发展中国家。
以色列于2019年11月发布了国家级人工智能计划,提出以色列要成为人工智能的世界五大国之一。并且政府以五年为一期,每年投资10至20亿新谢克尔(约2.89亿至5.8亿美元)开发人工智能技术,总共投资100亿新谢克尔(约28.93亿美元)于人工智能领域。
西班牙于2019年3月发布《西班牙人工智能研究、发展与创新战略》,认为最优先事项是建立一个有效的机制,以保障人工智能的研究、发展、创新,并评估人工智能对人类社会的影响。
中国AI发展支持政策:党和国家高度重视AI发展,从产业发展、教育等各个方面支持人工智能的发展。习近平总书记也曾多次强调用人工智能开辟社会治理新格局、人工智能为高质量发展赋能。早在2015年,《国务院关于积极推进“互联网+”行动的指导意见》就提出加快人工智能核心技术突破,促进人工智能在智能家居、智能终端、智能汽车、机器人等领域推广应用的目标。近年来发布了一系列的支持人工智能发展政策,如下图所示。
▲中国人工智能发展重要支持政策
进入2020年,国家大力推进并强调要加快5G网络、人工智能、数据中心等新型基础设施建设进度。人工智能技术被视为新一轮产业变革的核心驱动力量。此外,教育部、国家发展改革委、财政部联合发布了《关于“双一流”建设高校促进学科融合加快人工智能领域研究生培养的若干意见》,提出要构建基础理论人才与“人工智能+X”复合型人才并重的培养体系,探索深度融合的学科建设和人才培养新模式。7月,国家标准化管理委员会、中央网信办、国家发展改革委、科技部、工业和信息化部联合印发《国家新一代人工智能标准体系建设指南》(国标委联〔2020〕35号),以加强人工智能领域标准化顶层设计,推动人工智能产业技术研发和标准制定,促进产业健康可持续发展。
2、人工智能未来技术研究方向
人工智能经历几波浪潮之后,在过去十年中基本实现了感知能力,但却无法做到推理、可解释等认知能力,因此在下一波人工智能浪潮兴起时,将主要会去实现具有推理、可解释性、认知的人工智能。2015年,张钹院士提出第三代人工智能体系的雏形。2017年,DARPA发起XAI项目,核心思想是从可解释的机器学习系统、人机交互技术以及可解释的心理学理论三个方面,全面开展可解释性AI系统的研究。2018年底,第三代人工智能的理论框架体系正式公开提出,核心思想为:
(1)建立可解释、鲁棒性的人工智能理论和方法;
(2)发展安全、可靠、可信及可扩展的人工智能技术;
(3)推动人工智能创新应用。
其中具体实施的路线包括:
(1)与脑科学融合,发展脑启发的人工智能理论;
(2)探索数据与知识融合的人工智能理论与方法。虽然还没有明确第三代人工智能是什么,但是其趋势是清晰的。
Gartner2020年人工智能技术成熟度曲线图显示,如下图所示。2020年人工智能技术成熟度曲线共有30项技术出现,其中有17项技术需要2到5年才能达到成熟期,有8项技术需要5到10年才能达到成熟期。出现的这些技术基本处于创新萌芽期、期望膨胀的顶峰期和泡沫低谷期,而“稳步爬升的光明期”和“实质生产的高峰期”出现的技术寥寥无几,仅有InsightEngines(洞察引擎)和GPUAccelerators(GPU加速器)。
▲Gartner2020年人工智能技术成熟度曲线图
通过对2020年人工智能技术成熟度曲线分析,并结合人工智能的发展现状,本报告认为人工智能下一个十年重点发展的方向包括:强化学习(ReinforementLearning)、神经形态硬件(NeuromorphicHardware)、知识图谱(KnowledgeGraphics)、智能机器人(SmartRobotics)、可解释性AI(ExplainableAI)、数字伦理(DigitalEthics)、自然语言处理(NaturalLanguageProcessing)等技术处于期望膨胀期,表明人们对AI最大的期待,达到稳定期需要5-10年,是AI未来十年重点发展方向。
(1)强化学习(ReinforementLearning。)。强化学习用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习不受标注数据和先验知识所限制,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。由于智能体和环境的交互方式与人类和环境的交互方式类似,强化学习可以认为是一套通用的学习框架,可用来解决通用人工智能的问题。
(2)神经形态硬件(NeuromorphicHardware。)。神经形态硬件旨在用与传统硬件完全不同的方式处理信息,通过模仿人脑构造来大幅提高计算机的思维能力与反应能力。采用多进制信号来模拟生物神经元的功能,可将负责数据存储和数据处理的元件整合到同一个互联模块当中。从这一意义上说,这一系统与组成人脑的数十亿计的、相互连接的神经元颇为相仿。神经形态硬件能够大幅提升数据处理能力和机器学习能力,能耗和体积却要小得多,为人工智能的未来发展提供强大的算力支撑。
(3)知识图谱(KnowledgeGraphics。)。要实现真正的类人智能,机器还需要掌握大量的常识性知识,以人的思维模式和知识结构来进行语言理解、视觉场景解析和决策分析。知识图谱将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力,被认为是从感知智能通往认知智能的重要基石。
从感知到认知的跨越过程中,构建大规模高质量知识图谱是一个重要环节,当人工智能可以通过更结构化的表示理解人类知识,并进行互联,才有可能让机器真正实现推理、联想等认知功能。清华大学唐杰教授在知识图谱的基础上提出的“认知图谱=知识图谱+认知推理+逻辑表达”,为人工智能未来十年的发展提供了研究方向。
(4)智能机器人(IntelligentRobot)。智能机器人需要具备三个基本要素:感觉要素、思考要素和反应要素。感觉要素是利用传感器感受内部和外部信息,如视觉、听觉、触觉等;思考要素是根据感觉要素所得到的信息,思考出采用什么样的动作;反应要素是对外界做出反应性动作。
智能机器人的关键技术包括多传感器信息融合、导航与定位、路径规划、智能控制等。由于社会发展的需求和机器人应用行业的扩大,机器人可以具备的智能水平并未达到极限,影响因素包括硬件设施的计算速度不够、传感器的种类不足,以及缺乏机器人的思考行为程序难以编制等。
(5)可解释人工智能(ExplainableAI)。虽然深度学习算法在语音识别、计算机视觉、自然语言处理等领域取得令人印象深刻的性能,但是它们在透明度和可解释性方面仍存在局限性。深度学习的不可解释性已经成为计算机领域顶级会议(如NIPS)火药味十足的讨论话题。一些方法尝试将黑盒的神经网络模型和符号推理结合了起来,通过引入逻辑规则增加可解释性。
此外,符号化的知识图谱具有形象直观的特性,为弥补神经网络在解释性方面的缺陷提供了可能。利用知识图谱解释深度学习和高层次决策模型,是当前值得研究的科学问题,可以为可解释的AI提供全新视角的机遇。张钹院士指出当前人工智能的最大问题是不可解释和不可理解,并提倡建立具有可解释性的第三代人工智能理论体系。
(6)数字伦理(DigitalEthics。)。作为新一轮科技革命和产业变革的重要驱动力,人工智能已上升为国家战略,人工智能将会在未来几十年对人类社会产生巨大的影响,带来不可逆转的改变。人工智能的发展面临诸多现实的伦理和法律问题,如网络安全、个人隐私、数据权益和公平公正等。
为了让人工智能技术更好地服务于经济社会发展和人民美好生活,不仅要发挥好人工智能的“头雁”效应,也要加强人工智能相关法律、伦理、社会问题等方面的研究。数字伦理将是未来智能社会的发展基石,只有建立完善的人工智能伦理规范,处理好机器与人的新关系,我们才能更多地获得人工智能红利,让技术造福人类。
(7)自然语言处理(NatureLanguageProcessing)。深度学习在自然语言处理取得了巨大突破,它能够高效学习多粒度语言单元间复杂语义关联。但是仅仅依靠深度学习并不能完成对自然语言的深度理解。对自然语言的深度理解需要从字面意义到言外之意的跃迁,这需要引入复杂知识的支持。
丰富的语言知识能够提升模型的可解释性,可覆盖长尾低频语言单位的知识规则能够提升模型的可扩展性,而异质多样的知识与推理体系能够提升模型鲁棒性。因此有必要研究知识指导的自然语言处理技术,揭示自然语言处理和知识产生及表达的机理,建立知识获取与语言处理双向驱动的方法体系,实现真正的语言与知识智能理解。
3、面临的问题
随着人工智能的快速发展和应用,人们越来越重视随之而来的安全和伦理问题。AI发展面临着诸多安全和伦理方面的挑战。安全挑战主要包括三个方面:一是人工智能可以替代体力劳动和脑力劳动,相应的岗位替代作用影响着人类就业安全;二是建立在大数据和深度学习基础上的人工智能技术,需要海量数据来学习训练算法,带来了数据盗用、信息泄露和个人侵害的风险。
许多个人信息如果被非法利用,将会构成对隐私权的侵犯。三是人工智能具有强大的数据收集、分析以及信息生成能力,可以生成和仿造很多东西,甚至包括人类自身。随之而生的虚假信息、欺诈信息不仅会侵蚀社会的诚信体系,还会对国家的政治安全、经济安全和社会稳定带来负面影响。
人工智能发展面临的伦理挑战主要来自以下方面。一是人们对智能化的过度依赖。人工智能发展带来的简易、便捷的智能化工作和生活方式的同时,严重挤占了人们用于休息的自由时间、用于劳动的工作时间和用于个人全面发展的时间,由此催生了许多人的懒惰和对智能产品的过度依赖;同时,个性化新闻推荐或者自动生成的新闻,真假难辨的广告和宣传给人们封闭在“信息茧房”里。甚至逐渐失去了独立自由决策的能力,成为数据和算法的奴隶。
二是情感计算技术和类脑智能技术的创新融合发展,可能扰乱人们对于身份和能动性的认知。人类大脑与机器智能直接连接,会绕过大脑和身体正常的感觉运动功能;增强型神经技术的应用也可能改变人的体能和心智。这是对人类社会的道德社会规范和法律责任的挑战。
三是智能算法歧视将带来的偏见。人工智能以大数据和深度学习为基础,数据、算法以及人为因素会导致计算结果的偏见和非中立性,比如性别歧视、种族歧视以及“有色眼镜”效应。数据和算法导致的歧视往往具有更大的隐蔽性,更难以发现和消除。例如,微软在Twitter上上线的聊天机器人Tay在与网民互动过程中,由于大量恶意数据的输入,成为集性别歧视、种族歧视等于一身的“流氓”,它不但辱骂用户,还发表了种族主义评论和煽动性的政治宣言。
四是人工智能对人类造成的威胁和伤害。智能武器是可自动寻找、识别、跟踪和摧毁目标的现代高技术兵器,包括精确制导武器、智能反导系统、无人驾驶飞机、无人驾驶坦克、无人驾驶潜艇、无人操作火炮、智能地雷、智能鱼雷和自主多用途智能作战机器人等,它将成为未来战场主力军,信息处理和计算能力成为战争胜负的决定因素。人工智能武器是继火药和核武器之后战争领域的第三次革命。人工智能如果被赋予伤害、破坏或欺骗人类的自主能力,将是人类的灾难,后果难以想象。
面对人工智能带来的安全和伦理问题,受到越来越多各方关注和应对。2020年,美国国防部下属的国防创新委员会推出了《人工智能伦理道德标准》,公布了人工智能五大伦理原则,即负责、公平、可追踪、可靠和可控。无论作战还是非作战人工智能系统,均须遵守上述原则,否则美国防部将不予部署。牛津大学成立了人工智能伦理研究所(InstituteforEthicsinAI),并委任了由7位哲学家组成的首个学术研究团队。中国人工智能学会伦理专业委员会也正着手进行中国人工智能伦理规范研究。
科技是未来竞争的制高点。虽然科技无国界,但是科技公司有国界。当前世界各国对人工智能技术发展都不遗余力地投入和支持,同时,还使用不同方法保护自己的科技成果,封锁前沿技术和“卡脖子”技术外流路径,这将在一定程度上限制人工智能技术创新要素的自由流动。
从全球范围来看,中国和美国人工智能领域科研论文和专利产出数量最多的两个国家。但是近年来,中美两国在人工智能技术领域的贸易关系则存在摩擦。2018年11月19日美国商务部工业安全署(BIS)出台了一份针对关键新兴技术和相关产品的出口管制框架,其中在人工智能领域包括神经网络和深度学习、进化和遗传计算、强化学习、计算机视觉、专家系统、语音和音频处理、自然语言处理、规划、AI芯片组、AI云技术、音频和视频操作技术共计11项技术。
2019年10月7日,美国BIS部门把8家计算机视觉领域的中国科技企业加入“实体清单”。清单中的实体须在有许可证的情况下才可购买美国技术与产品,但美政府有权拒绝许可申请。
在字节跳动TikTok公司出售在美业务的谈判过程中,2020年8月28日,》中国商务部、科技部调整发布了最新版的《中国禁止出口限制出口技术目录》(商务部科技部公告2020年第38号)。在最新目录中,语音合成、人工智能交互界面、语音评测、基于数据分析的个性化信息推送服务、无人机、量子密码等技术均被列入“限制出口”名单。
根据《中华人民共和国技术进出口管理条例》,凡是涉及向境外转移技术,无论是采用贸易还是投资或是其他方式,均要严格遵守《中华人民共和国技术进出口管理条例》的规定,其中限制类技术出口必须到省级商务主管部门申请技术出口许可,获得批准后方可对外进行实质性谈判,签订技术出口合同。
在大型跨国公司的收购过程中,相关国家政府批准出售是交易宣告成功的必要条件。对于字节跳动出售TikTok业务来说,有可能出现其中一个国家政府出面阻止交易的情况。
根据人工智能技术关键词获取中美两国的论文数据,生成中国和美国在不同领域的研究成果对比图,如下图所示。分析发现,在被限制出口的计算及服务业技术中,中国在以人脸识别为代表的计算机视觉、语音识别与自然语言处理(特别是中文)上有着较美国领先的优势,主要体现在高水平论文发表量、专利申请量两方面。
▲中国和美国2011-2020年在三个AI子领域的高水平论文量和专利申请量对比图
在语音识别、图像识别、自然语言处理技术上,中国国内市场提供了稳定庞大的用户与数据供应,以及政策支持为产业发展带来的所需资源和资本聚集,这些本土化优势,对于外国企业来说是不可复制的。
中国目前在计算机视觉领域的领先企业以SenseTime,Face++,YITU和海康威视为代表,技术优势主要体现在人脸识别,在2017年中国在这一领域获得的专利数量大约是美国公司的6倍,其应用场景多为安全监控系统。相比而言,由于隐私政策,欧美的人脸识别技术难以发展实行,例如2020年8月12日英国法院裁决警察部门使用自动面部识别(AFR)违反了数据保护和平等法以及隐私权。
在语音识别领域,中国企业表现较优秀,特别是在中文识别和处理上。科大讯飞iFlytek、依图科技YITU、百度、腾讯、阿里巴巴等企业依靠中国庞大的中文用户,能获得远超美国能获得的中文语音数据库,这使得其语音识别AI有更好的语音识别学习条件。例如,腾讯可从其月活超10亿的微信用户那里获得中文语音数据。这一点是中国企业在中文语音识别技术上不可复制的优势。
在自然语言处理领域,百度的能力被认为超过微软和谷歌。受Google的BERT启发,百度的自然语言处理模型ERNIE最初是为理解汉语而开发的,但是它也能够更好地理解英语。
Google的模型在学习时会在每个序列中隐藏15%的单词,然后尝试根据上下文进行预测。基于类似的方法,百度团队通过让其AI模型预测文章中一串被隐藏的汉字,来学习文字组合的联系。不同于被微软和谷歌使用的英文,中文的特性要求ERNIE模型必须能够理解汉字组合后的出现的内在含义。结果显示,其在GLUE得分为第一名90.1,超过微软和谷歌的模型得分。
▲中国和美国2011-2020年在三个AI子领域专利公开趋势
研究发现,中国在人工智能和机器学习技术领域发展迅速,相关领域中在国学者的论文发表量在2008年前后已经赶超美国。
值得注意的是,中国杰出学者的国际合作对象国家不均衡,呈现出美国“一家独大”局面。以合发论文为产出指标看中国杰出学者开展国际合作的情况,中国杰出学者与美国合作紧密度最高,人数占比约62.3%,其次是英国(14.7%)、德国(13.7%)、澳大利亚(9.5%)和新加坡(9.2%)。随着贸易战的不断升级蔓延,中美关系日益复杂,正常的科技与学术交流受阻,容易对我国的相关技术领域发展与人才培养造成不利影响。
在严峻的国际大环境下,未来人工智能技术自由交流发展将无疑受到影响。考虑到数据安全等多种因素,未来的基于数据分析的个性化信息推送服务技术,对外技术支持与技术服务出口都将受到限制。
智东西认为,每一次的经济大发展都与科技的突破紧密相关,近些年世界经济很大程度上都是由信息产业的发展带动起来。现在,人工智能技术的逐渐成熟,下游应用不断拓展等种种迹象表明科技正迎来新的爆发期,全球科技竞赛也将再次掀起高潮。中国想要在这轮科技革新中占得先机,就需要加强技术预判,找准方向,提早部署,特别是在一些基础性、突破性的领域精准布局。
来源:智东西2021年1月23日(本文仅代表作者观点)
第42期:
【第四期】
...
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端人工智能的三次沉浮,和可能的寒冬
手机前瞻网注册/登陆
选择栏目
人工智能的三次沉浮,和可能的寒冬图灵TOPIA2021-11-3018:32作者|图灵 来源|图灵TOPIA(ID:turingtopia)
如果将眼光放长远一点,历史上已经经历了三次发展浪潮,也经历了两次低谷。换言之,人工智能的泡沫已经破灭两次了。让我们先来回顾一下人工智能这三起两落的历史,从历史中来找寻现在的意义,推导出我们可能面临的未来。
第一次浪潮和第一次低谷:
达特茅斯会议推动了全球第一次人工智能浪潮的出现,这次浪潮从1956年一直持续到1974年。当时乐观的气氛弥漫着整个学界,在算法方面出现了很多世界级的发明,其中包括一种叫做增强学习的雏形(即贝尔曼公式),增强学习就是谷歌AlphaGo算法核心思想内容。
70年代初,AI遭遇了瓶颈。人们发现逻辑证明器、感知器、增强学习等等只能做很简单、非常专门且很窄的任务,稍微超出范围就无法应对。当时的计算机有限的内存和处理速度不足以解决任何实际的AI问题。研究者们很快发现,要求程序对这个世界具有儿童水平的认识这个要求都太高了——1970年没人能够做出人工智能需要的巨大数据库,也没人知道一个程序怎样才能学到如此丰富的信息。另一方面,有很多计算复杂度以指数程度增加,这成为了不可能完成的计算任务。
第二次浪潮和第二次低谷:
在80年代,一类名为“专家系统”的AI程序开始为全世界的公司所采纳,而“知识处理”成为了主流AI研究的焦点。专家系统的能力来自于它们存储的专业知识,知识库系统和知识工程成为了80年代AI研究的主要方向。但是专家系统的实用性仅仅局限于某些特定情景,不久后人们对专家系统的狂热追捧转向巨大的失望。另一方面,1987年到1993年现代PC的出现,其费用远远低于专家系统所使用的Symbolics和Lisp等机器。相比于现代PC,专家系统被认为古老陈旧而非常难以维护。于是,政府经费开始下降,寒冬又一次来临。
第三次浪潮:
1993年后,出现了新的数学工具、新的理论和摩尔定律。人工智能也在确定自己的方向,其中一个选择就是要做实用性、功能性的人工智能,这导致了一个新的人工智能路径。深度学习为核心的机器学习算法获得发展,积累的数据量极大丰富,新型芯片和云计算的发展使得可用的计算能力获得飞跃式发展,现代AI的曙光又再次出现了。一个标志性事件发生在2016年3月,谷歌DeepMind研发的AlphaGo在围棋人机大战中击败韩国职业九段棋手李世乭。随后,大众开始熟知人工智能,各个领域的热情都被调动起来了。
深度学习的发展,让人工智能进入新的发展高潮。技术尤其是算法层面的局限,决定了这次人工智能浪潮的“天花板”。深度学习算法带来的“技术红利”,将支撑我们再发展5~10年时间,随后就会遇到瓶颈。在人工智能领域,技术的进步不是线性的,而是线性积累和间断式突破交替进行的。我们必须要达到一个“技术奇点”,才能实现根本上的突破,达到通用人工智能甚至是超级人工智能的水平。大概率的可能性,未来几年人们对人工智能怀有巨大的热情和非理性的期待,但同时会渐渐发觉推进起来越来越费劲,仿佛有个无形的“天花板”挡在那里,迟迟不能获得突破,人们的耐心被渐渐耗尽,人工智能的下一个冬天也就来临了。
就一般产业而言,线性发展的成分更重一些,即使产业不能再往前推进了,依然能够保持比较高的产业成熟度。人工智能产业则不同,如果以百分制来衡量一个产业的发展程度,人工智能不是从1慢慢发展到100,而是要么是90分以上,要么是10以下。试想一下,你有一个智能助手,如果他的智力水平一直在10岁以下,你能接受么?那样的智能助手更多的是个玩具,不能委以重任,毕竟谁也不会将重要的事情交给一个小孩子来做。再比如翻译领域,一旦智能系统能够达到人类水平的翻译能力,那将是一次彻底的颠覆,人类翻译员将彻底消失;但是,在没达到那种水平之前,翻译系统基本就是个摆设,你不能通过那套系统来与外国人顺畅的交流,也不能将看到的整段材料马上转换成另一种语言。
人工智能的泡沫,更多的是产业化和商业应用层面的。很多做人工智能应用的企业,如果发现将方案落地的期待落空,那他整个商业价值存在的根基就不存在了,整个产业将会消失,大量企业也会倒闭。
如果真的要面对那样一个未来,我们应该怎么应对呢?我提出几点参考建议:
第一,适度降低对人工智能的技术期待,理性设定商业模式。企业要仔细评估技术的发展潜力,不要抱有不切实际的幻想。寻找并设计一些智能水平不是太高就能具有商业价值的应用模式,并基于此来构建竞争壁垒。比如在自动驾驶领域,我们要做好L4在10年内无法实现的心理准备,寻找一些L3级别就能具有商业价值的应用领域。
第二,现在就开始准备“过冬的粮草”。泡沫破灭之后,融资会变得越来越难,依据公司本身的造血能力维持基本没戏。所以,现在尽可能的多融资吧,并且在未来几年省着点花,争取能挨过寒冬。
第三,实行曲线救国策略,发展一些“伪智能”业务,拓展业务领域。如果哪天发现“纯人工智能”这条路走不通,可以考虑发展一些周边产业,只要能带来现金流就行。虽然挂羊头卖狗肉有点缺德,但能保存“革命的火种”,也算一件好事。
编者按:本文转载自微信公众号:图灵TOPIA(ID:turingtopia),作者:图灵
本文作者信息
图灵TOPIA(人工智能)
关注(1441)赞(3)
邀请演讲广告、内容合作请点这里:寻求合作
咨询·服务
研究报告
产业规划
园区规划
产业招商
项目可研
市场调研
投资选址
IPO咨询
相关阅读迎接绿色革命
车百智库19:00菜鸟插翅,自营起量?
新熵18:59被炒至1999元一桶,山姆泡面桶爆火的背后更值得关注
新品略财观18:56粉笔张小龙,从教育到被教育|巨潮
巨潮WAVE18:23【盘点】全国预制菜产业标准分析
食业园区研究院18:20精彩推荐产业规模持续扩大!2022年中国文化产业营业收入达到16.6万亿元中国首艘!“海豚1”创下三个方面国内第一柳叶刀终于揭晓全球首例猪心脏移植人类案例失败原因中国工程院院士张平:中国将具备世界上最大规模的智能交通网络基础设施-发现趋势,预见未来关于前瞻|加入我们|联系我们|品牌合作
违法和不良信息举报电话:400-068-7188举报邮箱:service@qianzhan.com
Copyright©1998-2023FORWARD前瞻网
人工智能产业迎来发展新机遇
习近平总书记强调,人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。要深刻认识加快发展新一代人工智能的重大意义,加强领导,做好规划,明确任务,夯实基础,促进其同经济社会发展深度融合,推动我国新一代人工智能健康发展。
近年来,我国人工智能产业在技术创新、产业生态、融合应用等方面取得积极进展,已进入全球第一梯队。中国信通院测算,2022年我国人工智能核心产业规模达5080亿元,同比增长18%。
我国人工智能产业的发展现状与发展趋势如何?面临着哪些机遇?今后产业发展有哪些着力点?最近,记者采访了工业和信息化部相关负责人及业内多家企业。
核心技术取得突破,创新能力显著提升
无保护左转、行人车辆避让、自动变道、自动转向、红绿灯识别、窄路及拥堵路段通行、自动绕障……北京轻舟智航科技有限公司不久前推出的基于地平线征程5芯片的“轻舟乘风高阶辅助驾驶解决方案”,支持城市多场景、高速公路、快速路多种复杂路况的点到点辅助驾驶,让开车变得轻松。
包括18个智能水位站、5个流量站、100套森林火灾地表火探测器在内,200余个前端感知点位,将实时数据输送至云从科技主导搭建的综合枢纽数字孪生平台——“天府大脑”,并在数字孪生世界完美复原成都天府新区的生态现状。水体抬升、水质反演、污染等城市应急事件,在AI(人工智能)赋能下完成高效能治理。
六轴机器人轻柔地抓起几十公斤重的电池模组,精准放置到电池包底座上,在AI视觉和100%扭矩监控下完成自动拧紧,安装精度达到0.2毫米……在上汽通用汽车武汉奥特能超级工厂电池车间模组上线工位,由上汽通用工程制造团队与国内顶尖人工智能企业共同开发的“机器人、3D点云视觉、力控感知”技术融合应用,在业内成功落地。
“智能视觉技术在装配工艺中的应用,有效避免了模组在组装过程中由于磕碰造成的潜在安全风险,确保了装配过程电池零损伤。”据工厂负责人介绍,后续的电池包涂胶、合盖、拧紧工艺,也全部基于数字孪生技术的机器人自动完成。通过采用深度学习算法的视觉技术进行多重质量保证,安装工艺实现测量精度小于0.1毫米,确保电池包满足最高密封等级要求。
不仅如此,在武汉奥特能工厂,数字孪生技术已广泛运用于产线规划、设备制造、安装调试、生产运营监测、设备预维护等领域,节省设备建造、调试时间约50%,项目实际投产比规划提前了5个月。
以上事例,是我国人工智能创新能力显著提升的缩影。总体看,有四个方面主要进展:
——人工智能专利申请量居世界首位。据中国信通院测算,2013年至2022年11月,全球累计人工智能发明专利申请量达72.9万项,我国累计申请量达38.9万项,占53.4%;全球累计人工智能发明专利授权量达24.4万项,我国累计授权量达10.2万项,占41.7%。
——创新载体建设取得新进展。一批新型研发机构在人工智能大模型、人工智能计算芯片等领域取得了技术突破。算力基础设施达到世界领先水平。全国一体化大数据中心体系基本构建,“东数西算”工程加快实施;建成一批国家新一代人工智能公共算力开放创新平台。
——关键核心技术局部突破,部分关键应用技术居世界先进水平。我国企业在应用算法、智能芯片、开源框架等关键核心技术上已取得重要突破,图像识别、语音识别等应用技术进入国际先进行列,智能传感器、智能网联汽车等标志性产品有效落地应用。
——产业生态初步形成。目前,我国已有超过400所学校开办人工智能专业,高端人才居全球第二。截至2022年底,全球人工智能代表企业数量27255家,其中我国企业数量4227家,约占全球企业总数的16%。我国人工智能产业已形成长三角、京津冀、珠三角三大集聚发展区。百度、阿里、华为、腾讯、科大讯飞、云从科技、京东等一批AI开放平台初步具备支撑产业快速发展的能力。
融合应用步伐加快,赋能效果持续显现
“春节后,早高峰等车时间变短了,车上也不那么挤了。”2月23日7时40分,李先生在深圳桃源村东72路公交车站登车。他并不知道,车队根据智能排班,车辆周转率提升10%,乘车舒适度也提高了25%。
深圳巴士集团安托山公交车队调度组长陈晓岚告诉记者,去年车队6条线路、72辆公交车安装智能系统后,借助人工智能算法,车队可以通过精准匹配的动态飞线图,全面了解线路客流信息,如哪个时段、哪个区间客流量大,进而调整线路早晚高峰时段的发车频次,增发72路、M500路区间车,提升了线路运营效率,方便了乘客出行。
据了解,目前,深圳已经有6000辆公交车安装了该系统。构建城市级公交大脑不仅帮助公交公司降本增效,还有效推动城市智慧出行。
“伴随着人工智能在智慧城市领域的应用加速落地,我们对智慧城市的理解越来越深,战略也越来越清晰,那就是做自进化城市智能体。”云天励飞副总裁郑文先说,云天励飞拥有算法、芯片、大数据全栈式AI能力,基于对行业场景需求的深刻理解,通过自定义指令集、处理器架构及工具链的协同设计,实现了算法芯片化,进而打造具备多维敏捷感知、海量数据分析、全局实时洞察、持续迭代进化的城市超级大脑,助力智慧城市建设。目前,一系列示范应用已在北京、上海、深圳、青岛、成都等多个城市实现项目落地。
中国电子信息产业发展研究院副总工程师安晖表示,当前,人工智能与一、二、三产业融合成效初显,正在从医疗、交通、制造等先导产业领域向旅游业、农业等领域拓展;智能金融、智能医疗、智能安防、智能交通等领域已经成为人工智能技术产业化落地的热点应用场景;制造业研发设计、工艺仿真、生产制造、产品检测等重点环节智能化水平全面提升。
推动关键核心技术攻关,培育良好发展生态
“作为国内首款可量产的百TOPS级大算力AI芯片,地平线征程5已经获得比亚迪、上汽、一汽等多家主流车企的量产合作项目,首款量产车型已于今年2月落地。”业内专家表示,实现大算力车规级芯片量产,国内芯片企业仍需突破一些关键技术,如先进封装技术、自主IP技术、高算力芯片系统架构,以及功能安全流程、功能安全产品认证、车规可靠性认证等。
车规级智驾和智舱芯片,只是我国人工智能产业链短板之一。安晖认为,总体看,我国人工智能基础理论、核心关键技术积累不足,核心算法、AI框架、芯片及基础元器件与国外差距较大,重大原创科技成果还需要进一步研发。
“实现人工智能产业高水平自主可控,国内企业要加强产学研用协同创新,推动关键核心技术攻关。”安晖列举道,一是大力推进人工智能基础软硬件开发,加强小样本学习、迁移学习等基础技术研究,提升原始创新能力。二是加快智能芯片、深度学习框架及关键算法等共性技术迭代升级与产业化,发展感存算一体化的智能传感器。三是强化知识计算引擎、跨媒体智能、自然语言处理、自主无人系统等技术攻关与应用,加快人工智能安全技术创新。四是加速语音、图像文字等多媒体技术向跨媒体技术提升,推动感知智能向认知智能演进,发展超大规模预训练模型。五是加快人工智能与5G大数据、云计算、区块链等技术的融合创新,鼓励开发融技术产品并加速商业化落地。六是推动类脑智能等前沿技术,前瞻布局人工智能与量子信息、脑机接口等前沿领域探索。
在云从科技副总裁王仲勋看来,我国人工智能企业和初创公司在获得资金支持方面仍存在一定困难,有时无法承担训练大型语言模型的高昂成本,“此外,一些财力雄厚的大企业,项目投资更多关注短期的投资回报率,对长期规划且产出成果不明确的项目存在一定程度的重视不足。”
工信部有关负责人表示,“十四五”期间,我国将加快壮大人工智能产业,培育良好发展生态,具体举措包括:组织由大中小企业联合、产学研共同参与的创新联合体,推动人工智能关键核心技术突破,提升我国智能芯片、开发框架、典型智能产品等水平;加快人工智能在制造、交通、能源等领域的应用,推动重点领域智能化转型;打造产业集群,培育一批具有国际竞争力的人工智能龙头企业,发展一批专精特新企业,依托先导区打造产业集聚发展高地。
以技术突破和应用拓展为主攻方向,依托我国超大规模市场优势吸引全球资源要素,我国人工智能产业正在与实体经济深度融合,成为经济社会发展新的增长引擎。据预测,到2030年,我国人工智能产业规模将达到1万亿元。(王政)
[责编:姜楠]人工智能发展现状及应用
导读:人工智能(ArtificialIntelligence),英文缩写为AI。人工智能被认为是第四次科技革命的核心驱动力,目前许多领域都在探索AI技术的应用,可谓方兴未艾。那么什么是人工智能,它经历了怎样的发展历程,现阶段发展状况如何,它有哪些应用。本篇文章就为大家做个简单分享。同时也会为大家详细介绍一下百度的AI技术体系。
本文主要内容:
1.人工智能概念
①智能
②人工智能
2.人工智能的发展
①人工智能的发展历程
②AI是中国的机遇
3.AI与百度
①百度AI的发展历程
②百度AI的技术体系
③百度AI的场景化应用
1.人工智能概念
1.1智能
谈到人工智能,需要首先理解“智能”一词的具体含义。智能是指人类才具有的一些技能。人在进行各种活动的过程中,从感觉到记忆再到思维产生了智慧,智慧产生了人类本身的行为和语言,行为和语言统称为能力;智慧和能力结合在一起就是人工智能中的智能一词。
比如,人类的语言表达能力就是一种智能(语言智能);人类进行复杂数学运算的能力也是一种智能(数字逻辑智能);人类的交往能力也是一种智能(人际智能),人们对音调、旋律、节奏、音色的感知能力,也是一种智能(音乐智能)。他们都属于智能的范畴。
1.2人工智能
把智能的概念与人的逻辑理解相结合,并应用到机器中,让机器能更好的模拟人的相关职能,这就是人工智能。人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。
人工智能概念,最早可以追溯到上世纪90年代初,这个时候需要提到一位科学家:图灵。
艾伦·麦席森·图灵(英语:AlanMathisonTuring,1912年6月23日—1954年6月7日),英国数学家、逻辑学家,被称为计算机科学之父,人工智能之父。
图灵最早定义了什么是人工智能,怎样去界定一个机器(或一个设备)是否具备智能。他最早提出了图灵测试(即:一个人在不接触对方的情况下,经过某种特殊的方式和对方进行一系列的问答,如果在某些时间之内,他无法根据这些问题判断对方是人还是计算机,那么我们就认为这台机器具备智能化的思维)。直到2000年左右,才真正有计算机通过了图灵测试,才实现了一个突破。在2014年图灵测试大会上,出现了一个通过图灵测试的机器(或者称为智能聊天的机器人)。这两年人工智能的高速发展,也印证了最早的图灵测试,这也让我们反向看到了图灵在人工智能定义方面做出的突出贡献。
现今,在做图灵测试时,判断这个设备是否具备人工智能,更多的还是从模拟人的角度来考量。但在当前科技背景下,人工智能需要涵盖更广的内容,它不仅仅要模拟人本身的职能,还需要具备一些扩展、替代甚至延伸的职能。
举个例子,在医疗领域,需要经常在实验室进行病毒化验,人处这样的实验环境下会比较危险,经常会出现一些事故,如果能够用机器替代人来做这些实验,这些事故就可以避免。此时,这台机器就不仅仅是在模拟人,而是在替代人,机器本身就具备了替代人的能力。
当前,很多人在担忧:人工智能的发展会不会对人类造成威胁。其实,目前人工智能还处于早期的阶段(或者称之为婴幼儿阶段),我们还处于弱人工智能时代。
当然,随着时间的推移,将来我们可能会把弱人工智能时代推进到强人工智能,甚至再往前推进到超人工智能和智能爆炸时代。但至少目前,我们离这样的时代还有非常远的距离,要实现这样的目标,需要非常多的时间积累,可能要通过几代人甚至十几代人的努力。所以大家不要有过多的担心,人工智能现在更多的还是用于服务人类,用来提高人们的工作效率。
上图引自MIT大学一位教授。
针对人工智能所覆盖的领域,这位教授提出一个观点:“我们要尽可能避免做这些容易“进水”的工作,以免被日后所淘汰掉”。
这张图水平面以下的工作,如存储,计算、甚至象棋活动等,已经被海平面淹没。在海平面边缘的工作,如翻译、驾驶、视觉和音频等,很有可能在未来的一段时间,随着技术的进步也会被淹没。再来看图上高海拔地区的工作,如艺术创新、科学研究,文学创作等,让人工智能替代人类去做这些工作,在现阶段是比较困难的。要让人工智能实现像人一样具备主观能动性,还需要比较长的时间。我们在选择工作,或者在做技术探索的时候,应该从更高的层面布局,而把那些可以被人工智能替代的工作交给计算机去做,这样我们就可以从一些重复性、冗余性的工作中抽离出来,去专门从事创造性的工作(比如艺术创作等)。
2.人工智能的发展2.1人工智能的发展历程我们回顾一下人工智能发展的历程。
人工智能并不是特别新鲜的词,在计算机出现后不久,大家就已经开始探索人工智能的发展了。
1943到1956年这段时间,为人工智能的诞生期,期间有很多人尝试用计算机进行智能化的应用,当然此时不能称为人工智能,只是有类似的概念。
人工智能的分水岭是1956年达特茅斯会议,在本次会议上正式提出了AI这个词。
1956到1974年这段时间,是人工智能发展的黄金时代,是人工智能的第1个高速发展期,通常把这段时间称之为人工智能大发现时代。
1974到1980年这6年的时间里,进入了人工智能发展的第1个低谷,在这个低谷期,出现了非常多的问题,比如计算上的问题、存储上的问题、数据量的问题,这些问题限制了人工智能的发展。
1980到1987年这段时间是人工智能的第2个繁荣期。期间诞生了大量的算法,推动了神经网络的高速发展,同时出现了许多专业的科研人员,发表了许多创造性的论文。
1987到1993年这段时间是人工智能的第2个低谷期,期间有个词叫“AI之冬”。有大量的资本从AI领域撤出,整个AI科研遇到了非常大的财政问题,这是导致”AI之冬”的主要原因。
1993年之后,人工智能又进入到高速发展期,期间出现了许多经典案例,比如1997年IBM公司的深蓝案例,2001年IBM的沃森案例,2016年谷歌AlphaGo案例。这些案例是人工智能在应用层面的体现。
上图概括了人工智能的发展历程。
可以看到,从1956年达特茅斯会议AI这个词诞生,一直发展到现在,人工智能共经历了60多年的跌宕起伏,并不是仅在2016、2017这两年间才出现了人工智能这个概念。
从宏观上看,AI的发展历程经历了三次比较大的起伏。
第1次起伏是从1943年到1956年,首次出现了神经网络这个词,把人工智能推到一个高峰,期间出现了许多大发现。而第1次低谷使人工智能进入到了反思的阶段,人们开始探讨人工智能的应用。
第2次起伏是在上世纪80年代,期间BP算法的出现,神经网络新概念的普及,推动了人工智能又进入第2次高峰和发展。然而从1987年到1993年又进入到了了第2次低谷,这主要因为一些财政原因导致。
第3次起伏从2006年开始,由辛顿提出了深度学习的概念,把神经网络往前推动了一大步,也把人工智能推到了高速发展阶段,尤其是近几年在非结构化领域取得了许多突破(例如在语音与视觉方面),给人工智能进入商业化应用带来许多的基础性技术沉淀。
人工智能为什么会在前面的发展过程里遇到了那么多的坎坷?为什么在最近这几年会进入一个高速发展期?
我们归结了近几年人工智能高速发展的三点原因:
①算力飞跃
人工智能(尤其是深度学习),对底层计算能力的要求非常高。早期的计算受到了极大限制,从CPU发展到了GPU,使得算力几乎能达到几倍甚至十几倍量级的增长。再从GPU到TPU,计算速度能达到15~30倍的增长,使得在算力层面不断取得突破。此外,大量云资源的出现将我们计算的成本压到了最低,我们在处理海量计算的同时,也可以享受比较低的成本。再者,芯片技术的发展,使得端处理能力持续提高,这些都帮助我们在算力层面取得了很大的突破。
②数据井喷
从PC互联网时代到移动互联网时代,再到可穿戴设备的应用,都产生了大量的数据。这两年,每年产生的数据量可以达到50%左右的增长。2017年到2018年,这段时间内基本上每个月产生的数据量可以达到几十个亿的量级,数据量已经非常高。物联网的连接,能帮助我们把更多的数据采集回来,帮助我们在数据层面做更多的积累,这是数据井喷带来的积极影响。
③算法突破
近几年来,从机器学习到深度学习,算法不断取得突破。使得我们可以处理更多的大规模、无监督、多层次等复杂业务。
算法、算力、数据是人工智能的三要素,算力是骨骼,数据是血液和食物,算法就是大脑,三者不断取得突破,才能促进人工智能高速发展。
2.3AI是中国的机遇
人工智能技术的发展也促进了很多产业的发展。中国目前有非常好的历史机遇,不仅仅是在技术上有大量的积累,同时,国家也为人工智能的发展提供了非常好的政策环境。此外,市场空间、资金支持、人才储备,也都为人工智能的发展提供了非常好的条件。
通过上图可以看到,人工智能的研发人才目前还比较短缺。图上数据来源于领英在2017年所做的全球AI人才报告。以2017年的数据来看,全球人工智能专业的人才数量超过190万,在这190万人才中,美国处于第一梯队,有85万+;而中国在人工智能领域的人才积累比较少,从数据上来看,目前国内人工智能方面的专业技术人才可能只有5万+,当然这是2017年的数据,现在可能会有一些增长,但是量级也没有达到我们想象的那么大。
所以从国内目前来看,这约5-10万的AI技术人才,对比AI产业的高速发展需求,两者之间有巨大矛盾。那怎样更好的用这些人才作为突破,把人工智能方面的技术人才储备提高到百万级别。这正是整个百度(包括百度的教育合作与共建,包括百度所有对外输出的体系,包括我们今天所做的课程)所努力的方向,我们期望通过百度的技术赋能,真正的帮助人工智能取得更好的人才积累,真正培养一些在未来对人工智能行业有巨大贡献的专业人才,这是百度现在的定位目标。
AI浪潮已然到来,行业人工智能时代已经到来。目前,人工智能已经大量应用在2c和2b领域,怎么让人工智能跟具体行业有更好的接触,产生更多的积累,是我们正在重点探索的方向。
比如百度的搜索引擎,已经融入了很多AI元素。模糊匹配、拍照识图、深度挖掘检索等都应用到了大量的人工智能技术。
再如推荐系统,他会基于个人的一些喜好和历史阅读习惯来给用户做一些内容的推荐和匹配,这是很典型的结合大数据做的精准应用,实际上也属于人工智能的范畴。
再如人脸识别技术、语音技术、智慧交通和无人驾驶等,都是AI技术与行业应用的融合,并且这些技术正在不断取得突破。百度现在L4级别的无人驾驶车已经初步实现了一些小规模的量产,未来会有更多的人将真正的体会到无人驾驶给生活带来的便利。
3.AI与百度3.1百度AI的发展历程
上图为百度在人工智能领域的发展轨迹,早在2009年,百度就开始尝试探索人工智能相关技术,直到2019年,百度用了近十年的时间布局人工智能。
2009年尝试性布局人工智能,2013年发布IDL,2014年成立硅谷实验室以及百度研究院,2015年首次发布DuerOS,2016年发布百度大脑1.0版本,同年,百度的自动驾驶技术进入试运营状态,2017年是百度人工智能技术高速发展的一年,不仅成立了深度学习国家实验室,同时也成立了硅谷第二实验室以及西雅图实验室,并且Apollo平台开始运行并对外推广,在2018年到2019年,DuerOS和Apollo平台发展到3.0版本,百度大脑发展到5.0版本。经过近十年的发展和积累,百度的人工智能技术目前处于相对领先的位置。
百度在人工智能领域领域取得的进展有目共睹,比如,百度成立了首个国家级AI实验室;2016年被美国《财富》杂志评选为深度学习领域四大巨头之一;百度的刷脸支付、强化学习、自动驾驶等技术入选MIT2017年全球十大突破性技术;在AI领域,百度的中国专利申请超过2000项。
3.2百度AI的技术体系
百度的技术体系非常全面,覆盖了计算体系、大数据技术体系以及人工智能技术体系等,在机器学习、深度学习、区块链、知识图谱、自然语言处理、量子计算等领域均有雄厚的技术积累。这些技术可以按内容划分成三个板块,第一是A板块(即AI技术板块),第二是B板块(即大数据板块),第三是C板块(即云计算板块)。这就是百度在2016年提出的ABC概念。从一开始的1.0版本,发展到如今的3.0版本,代表着百度在人工智能领域的整体布局。在人工智能领域的布局中,百度的探索不仅停留在最核心的技术上,也同时将核心技术与更多的领域相结合,如边缘计算、物联网(InternetofThings,IoT)和区块链等,得到了如ABC+区块链、ABC+DuerOS、ABC+Apollo等对外输出模式,向各行各业提供解决方案。
在A板块中,将百度大脑分成了不同的层次。最底层是算法层,包含机器学习和深度学习算法,使用百度的PaddlePaddle深度学习框架提供算法层的基础支撑;算法层之上为感知层,感知层可分为对声音的感知和对光的感知,其中,对声音的感知主要是语音技术板块,对光的感知主要是图像技术、视频技术、AR/VR等技术板块;在感知层之上是认知层,认知层更多的是处理人类听到和看到的内容,对其进行深度理解,深度理解需要自然语言处理(NLP/NLU)、知识图谱等技术作为支撑,同时也需要积累大量用户画像数据,这些技术能帮助人们快速的理解和分析人类听到和看到的内容,并对内容进行有效的反馈,这是认知层面的技术;在认知层之上是平台层,平台层将底层的内容进行融合、封装,对外提供开放、完整的AI技术,并引入大量的生态合作伙伴,共同探讨人工智能产业的布局。
百度人工智能整体技术体系,最底层是深度学习框架飞桨PaddlePaddle,作为底层计算框架,飞桨PaddlePaddle支撑着上层场景化能力与平台中的全部板块。在场景化能力与平台中,包含了诸多场景大板块,每个大板块下又细分为多个技术板块,比如语音板块包含了语音合成以及语音唤醒等技术板块;计算机视觉技术中的OCR技术,包括传统通用OCR识别,以及垂直领域OCR的识别,可以对30多个OCR识别领域进行精准识别,比如票据识别、证件识别以及文字识别等;在人脸/人体识别板块,同时也会引入图像审核以及图像识别方面的技术;在视频板块,有视频比对技术,视频分类和标注技术,以及视频审核技术;在自然语言处理板块,有机器翻译技术;知识图谱板块,有AR/VR技术。这些板块构成了人工智能体系的技术蓝图。
近两年来,人工智能技术在各行各业中的应用不断加深,实践证明,单一的技术在落地时会受到诸多限制,所以现在人工智能在落地时可能不仅仅用到某一个单独的技术板块,而是需要先把这些板块进行融合,然后再进行实际应用,比如在拍照翻译的应用场景下,既需要用到OCR技术,同时也用到NLP技术。因此在实际应用中,需要综合各个板块的技术,把不同的技术体系和技术内容有机地融合起来,再去解决行业中面临的痛点。
3.3百度AI的场景化应用
2014年到2015年期间,在计算机视觉领域的部分场景下,计算机视觉识别准确率已经超过了人眼识别。而利用深度学习技术的计算机听觉识别,在2017年左右也已经超过人耳听力极限。
人工智能业务场景化不仅依赖底层的硬件资源,也需要超大规模的标注数据,这是监督学习的特点,所以在人工智能早期研究中,有评论说“有多少人工就有多少智能”,这句话在特定角度来看是具有一定意义的。在监督学习中,训练模型需要庞大的标注数据,再结合GPU强大的数据处理能力去训练特定模型,也就是从算法的层面去做更多的工作,在训练模型的过程中需要发挥人的主观能动性,更好的解决在行业应用中出现的一些痛点,构建出行业专属的模型。
比如,将人体分析技术应用到实际行业场景中时,需要结合人脸识别技术和人体识别技术。可以通过基础手势识别,识别一个人在开车时有没有系安全带、是不是在打电话等。
利用人体分析技术,可以做到行为识别,首先设定特定区域,然后对区域内的人员行为进行识别,比如人群过密、区域越界、人员逆行、徘徊以及吸烟等,在特定场景下,行为识别能够帮助用户避免安全隐患。
自然语言处理有很多相关技术,比如说词法分析、词向量表示、语义相似度、短文本相似度、情感相似度分析等。这些技术用在不同的应用场景下。
在公检法系统应用中,为了避免出现非常严重的问题,如同案不同判,具体解决方案是当诉讼呈递给法官时,根据当前诉讼内容在公检法系统中寻找历史上类似的案件,参考历史类似案件的判决,给法官提供判案依据。
在媒体领域应用中,对基础的财经类新闻,可以由机器进行新闻文章的编写,即机器写作。这些技术都是基于NLP在相应领域做的智能化应用,可以让编辑或记者从重复性的工作中解脱出来。
人工智能从广义上来看,也包括大数据及云计算相关技术,这些技术也都涵盖在百度AI技术体系中。在大数据领域,主要包括数据采集、数据存储、数据分析以及数据可视化等,利用这些技术,我们在进行模型训练的时候,对数据进行科学的管理可以帮助我们提高模型训练效率。
百度AI技术体系也提供算力层面的支持,通过GPU服务器以及FPGA服务器提供的算力,更好的解决应用层面的问题。
百度AI就是这样一个从基础层,到感知层、认知层的完整体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。
回顾本篇文章,我们和大家分享了人工智能的相关概念,人工智能的发展历程,从中也可以看出AI是我们的历史机遇。同时本文也为大家详细介绍了百度的AI技术体系,经过10余年的努力,百度AI已经形成从基础层,到感知层、认知层的完整技术体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。
深度研报:人工智能机器人开启第四次科技革命
图片来源@视觉中国
文|光锥智能&势乘资本,作者|谢晨星、王嘉攀、赵江宇
在互联网红利基本散尽的时代,未来到底属于web3、元宇宙,还是碳中和?到底什么样的革命性技术可以引领人类社会走出经济衰退、疫情和战争的影响,并将全球经济体量再向上推动数十倍?
我们的答案是,我们早已处于人工智能时代之中。
我们正处于传统信息技术时代的黄昏,和人工智能时代的黎明。
在过去的260年间,人类社会经历了三次巨大的科技创新浪潮,蒸汽机、电力和信息技术,将全球GDP提升了近千倍。每一次科技浪潮都通过某一项先进生产力要素的突破,进而引起大多数行业的变革:比如蒸汽机的出现推动了汽车、火车、轮船、钢铁等行业的巨大发展,140年前美国铁路行业的恶性竞争史,就如同现今互联网行业BAT之间的竞争。而铁路行业发展、兼并所需的巨额金融资本,又驱动了华尔街的发展,逐渐成为全球的金融中心。
二战之后以信息技术为核心的第三次科技革命迄今已逾70年,将全球GDP提升约60倍。其中可分为两段:1950年-1990年,是半导体产业迅猛发展的时代,推动了大型计算机向个人PC的小型化;1990年至今是近30年的互联网全球化时代,而互联网时代又细分为桌面互联网和移动互联网两段。
但随着摩尔定律的失效和信息技术红利彻底用尽,加上疫情黑天鹅影响,全球GDP衰退,引发并加剧了全球地缘政治和军事冲突,开始向逆全球化发展。
所以未来到底属于web3、元宇宙,还是碳中和?到底什么样的革命性技术可以引领人类社会走出经济衰退、疫情和战争的影响,并将全球经济体量再向上推动增长下一个50倍?
我们的答案是,我们早已处于人工智能时代之中。就像直到2010年iphone4发布,绝大多数人也并未意识到移动互联网革命早已开始一样,如今人工智能其实也已广泛应用,比如到处遍布的摄像头和手机人脸识别,微信语音和文本转换,抖音动态美颜特效、推荐算法,家庭扫地机器人和餐厅送餐机器人,背后都是人工智能核心技术在过去十年不断取得的巨大突破。
互联网已经是传统行业。
互联网技术作为过去30年最先进的生产力要素,改变了全球的所有人、所有产业、社会经济,甚至是政治、军事、宗教。
虽然互联网的技术红利已基本用尽,但我们仍可通过研究其历史规律,来预测未来新技术发展的可能路径。
30年的互联网发展历程总体可分为桌面互联网和移动互联网两个时代,按产业渗透规律,又可分为信息互联网、消费互联网和产业互联网三大阶段。
系统硬件都是最先起步,包括底层芯片、操作系统、联网通信、整机等,进而初步向媒体工具、文娱游戏行业渗透,因为这些领域最易受新技术的影响。当2002年中国网民达到6000万人,2012年中国智能手机出货量达到2亿部之后,互联网和移动互联网开始全面开花,渗透变革了直接toC的众多行业,如零售消费、交通出行、教育、金融、汽车、居住、医疗等。而当用户量进一步上涨、新技术的渗透进一步加深,企业服务、物流、制造、农业、能源等toB产业被影响。
而这个过程中可以发现,移动互联网时代对产业的渗透深度比桌面互联网更深,桌面互联网介入行业基本停留在信息连接层面,而到移动互联网时代,众多掌握先进技术要素的公司开始自己下场开超市、组车队、重构教育内容和金融机构,甚至是卖房、造车。也有些公司虽然诞生在桌面时代,但成功抓住移动爆发红利杀出重围,比如美团、去哪儿、支付宝。
抖音的崛起是中国移动互联网时代的最大变数,也是数据通信传输技术不断提升的必然,引发了用户流量结构的重组,进而催生了一大批抓住抖音流量红利崛起的消费品牌,如完美日记、花西子等等。但最终都逃不过被平台收割的命运,就像当年淘品牌的结局一样。微信支付、支付宝的普及极大推动了线下连锁零售的数字化程度和管理半径,减少了上下游现金收款产生的风险,促使其在资本市场被重新认可,连锁化率进一步提升,比如喜茶、瑞幸、Manner等等。这两条逻辑共同构成了过去几年的消费投资热潮主线。
如何评判一个新技术是否能引领未来的发展方向?
我们要看它能否从本质上解放生产力、发展生产力。
蒸汽机之所以推动了第一次科技革命,是因为其极大的提升了劳动生产力,并将大量劳动人口从第一产业农业的低级劳动中解放出来,进入第二产业工业。电力加速了这一过程,并推动了第三产业服务业的出现和发展。信息技术将更多的人口从第一、二产业中释放,进入第三产业(如大量年轻人不再进厂而去送外卖、跑滴滴),于是形成了如今全球第三产业GDP占比55%,中国第三产业劳动人口占比50%的格局。
机器人即是人工智能技术的硬件形态,在可见的未来,将第一二三产业的劳动人口从低级劳动中大比例释放和替代,并在这个过程中推动全球GDP继续百倍增长。
同时可大胆预言,以创新为职业的第四产业将会出现,而这个职业在人类的历史长河中其实一直存在于第一二三产业的边缘,不断用突破性创新推动着人类技术的进步,且社会生产力的提升促使该职业人群不断扩大。这大约能证明刘慈欣的技术爆炸假说来源。
人工智能从模块上可分为感知、计算和控制三大部分,由表及里可分为应用层、数据层、算法层、算力层,而随着2012年芯片进入28nm制程后的量子隧穿效应导致摩尔定律失效,“每提升一倍算力,就需要一倍能源”的后摩尔定律或将成为人工智能时代的核心驱动逻辑,算力的发展将极大受制于能源,当前全球用于制造算力芯片的能源占全球用电量的约1%,可以预测在人工智能大规模普及的未来数十年后,该比例将会大幅提升至50%甚至90%以上。而全球如何在减少化石能源、提升清洁能源占比,从而确保减少碳排放遏制全球升温的同时,持续提升能源使用量级,将推动一系列能源技术革命。关于该方向的研究可参考我们的另一篇报告《碳中和:能源技术新革命》。
早在第一次科技革命之前260年,哥伦布地理大发现就使西班牙成为了第一个全球化霸主。蒸汽机驱动英国打败西班牙无敌舰队,电力和两次世界大战使美国超过英国,信息技术又让美国赢得和苏联的冷战对抗,全球过了30年相对和平的单极霸权格局。
因此中国如果仅在现有技术框架中与欧美竞争,只会不断被卡脖子,事倍功半。只有引领下一代人工智能和碳中和能源技术科技革命浪潮,才能从全球竞争中胜出。
尽管中国已经跻身人工智能领域的大国,但是我们必须认识到中美之间在AI领域仍然有着明显的差距。从投资金额和布局上看,从2013年到2021年,美国对人工智能公司的私人投资是中国的2倍多。当前美国AI企业数量领先中国,布局在整个产业链上,尤其在算法、芯片等产业核心领域积累了强大的技术创新优势。更关键的是,尽管近年来中国在人工智能领域的论文和专利数量保持高速增长,但中国AI研究的质量与美国仍然有较大差距(集中体现在AI顶会论文的引用量的差距上)。
请输入图说2013-2021年中美在AI领域私有部门(如风险投资、个人投资等)投资金额上差距逐渐拉大
请输入图说中国在AI顶会上发表的文章数量已经反超美国,但影响力上仍然与美国有较大差距
图片来源:The2022AIIndexReport,StandfordUniversity
因此,中国需要持续加大在AI领域的研发费用规模,特别是加大基础学科的人才培养,吸引全世界优秀的AI人才。只有这样,中国才能有朝一日赶超美国,在基础学科建设、专利及论文发表、高端研发人才、创业投资和领军企业等关键环节上的拥有自己的优势,形成持久领军世界的格局。
一、AI发展简史
人工智能的概念第一次被提出是在1956年达特茅斯夏季人工智能研究会议上。当时的科学家主要讨论了计算机科学领域尚未解决的问题,期待通过模拟人类大脑的运行,解决一些特定领域的具体问题(例如开发几何定理证明器)。
那么到底什么是人工智能?目前看来,StuartRussell与PeterNorvig在《人工智能:一种现代的方法》一书中的定义最为准确:人工智能是有关“智能主体(Intelligentagent)的研究与设计”的学问,而“智能主体”是指一个可以观察周遭环境并做出行动以达致目标的系统。这个定义既强调了人工智能可以根据环境感知做出主动反应,又强调人工智能所做出的反应必须达成目标,同时没有给人造成“人工智能是对人类思维方式或人类总结的思维法则的模仿”这种错觉。
到目前为止,人工智能一共经历了三波浪潮。
第一次AI浪潮与图灵和他提出的“图灵测试”紧密相关。图灵测试刚提出没几年,人们似乎就看到了计算机通过图灵测试的曙光:1966年MIT教授JosephWeizenbaum发明了一个可以和人对话的小程序——Eliza(取名字萧伯纳的戏剧《茶花女》),轰动世界。但是Eliza的程序原理和源代码显示,Eliza本质是一个在话题库里通过关键字映射的方式,根据人的问话回复设定好的答语的程序。不过现在人们认为,Eliza是微软小冰、Siri、Allo和Alexa的真正鼻祖。图灵测试以及为了通过图灵测试而开展的技术研发,都在过去的几十年时间里推动了人工智能,特别是自然语言处理技术(NLP)的飞速发展。
第二次AI浪潮出现在1980-1990年代,语音识别(ASR)是最具代表性的几项突破性进展之一。在当时,语音识别主要分成两大流派:专家系统和概率系统。专家系统严重依赖人类的语言学知识,可拓展性和可适应性都很差,难以解决“不特定语者、大词汇、连续性语音识别”这三大难题。而概率系统则基于大型的语音数据语料库,使用统计模型进行语音识别工作。中国学者李开复在这个领域取得了很大成果,基本上宣告了以专家系统为代表的符号主义学派(SymbolicAI)在语音识别领域的失败。通过引入统计模型,语音识别的准确率提升了一个层次。
第三次AI浪潮起始于2006年,很大程度上归功于深度学习的实用化进程。深度学习兴起建立在以GeoffreyHinton为代表的科学家数十年的积累基础之上。简单地说,深度学习就是把计算机要学习的东西看成一大堆数据,把这些数据丢进一个复杂的、包含多个层级的数据处理网络(深度神经网络),然后检查经过这个网络处理得到的结果数据是不是符合要求——如果符合,就保留这个网络作为目标模型;如果不符合,就一次次地、锲而不舍地调整网络的参数设置,直到输出满足要求为止。本质上,指导深度学习的是一种“实用主义”的思想。实用主义思想让深度学习的感知能力(建模能力)远强于传统的机器学习方法,但也意味着人们难以说出模型中变量的选择、参数的取值与最终的感知能力之间的因果关系。
需要特别说明的是,人们往往容易将深度学习与“机器学习”这一概念混淆。事实上,在1956年人工智能的概念第一次被提出后,ArthurSamuel就提出:机器学习研究和构建的是一种特殊的算法而非某一个特定的算法,是一个宽泛的概念,指的是利用算法使得计算机能够像人一样从数据中挖掘出信息;而深度学习只是机器学习的一个子集,是比其他学习方法使用了更多的参数、模型也更加复杂的一系列算法。简单地说,深度学习就是把计算机要学习的东西看成一大堆数据,把这些数据丢进一个复杂的、包含多个层级的数据处理网络(深度神经网络),然后检查经过这个网络处理得到的结果数据是不是符合要求——如果符合,就保留这个网络作为目标模型,如果不符合,就一次次地、锲而不舍地调整网络的参数设置,直到输出满足要求为止。本质上,指导深度学习的是一种“实用主义”的思想。实用主义思想让深度学习的感知能力(建模能力)远强于传统的机器学习方法,但也意味着人们难以说出模型中变量的选择、参数的取值与最终的感知能力之间的因果关系。
二、AI的三大基石解析
如前所述,人工智能由表及里可分为应用层、数据层、算法层和算力层。
1.算力
算力层包括具备计算能力硬件和大数据基础设施。回顾历史我们就会发现,历次算力层的发展都会显著推动算法层的进步,并促使技术的普及应用。21世纪互联网大规模服务集群的出现、搜索和电商业务带来的大数据积累、GPU和异构/低功耗芯片兴起带来的运算力提升,促成了深度学习的诞生,促成了人工智能的这一波爆发。而AI芯片的出现进一步显著提高了数据处理速度:在CPU的基础上,出现了擅长并行计算的GPU,以及拥有良好运行能效比、更适合深度学习模型的现场可编程门阵列(FPGA)和应用专用集成电路(ASIC)。
当前,人工智能的算力层面临巨大的挑战。随着2012年芯片28nm的工艺出现,原先通过在平面上增加晶体管的数量来提升芯片性能的思路因为量子隧穿效应而不再可取,摩尔定律开始失效。晶体管MOSFET这个芯片里最基础的单元,由平面结构变成立体结构(由下图中的Planar结构转向FinFET结构,2018年之后进一步从FinFET结构转向GAAFET结构)。
三代MOSFET的栅极结构演化。其中灰色代表电流流经区域,绿色代表充当闸门的栅极
芯片结构的改变直接导致了芯片制造步骤的增加,最终体现为成本的上升。在2012年28nm工艺的时候,处理器的生产大概需要450步。到了2021年的5nm工艺时,生产环节已经增加到了1200步。对应到每1亿个栅极的制造成本上,我们从图中可以清楚地看到,从90nm工艺到7nm工艺,生产成本先下降后上升。这就使得摩尔定律的另一种表述形式——“同样性能的新品价格每18-24个月减半”不再成立。未来我们很可能见到的情况是,搭载了顶级技术和工艺生产出来的芯片的电子产品或设备价格高昂,超过了一般消费者的承受力度。
每1亿个栅极的制造成本、图片来源:MarvellTechnology,2020InvestorDay
不过算力层的这个变化让半导体制造企业受益最大,因为只要需求存在,台积电、三星、英特尔等几家掌握先进工艺的厂商就会持续投入资金和人力,不断设计和制造新一代芯片,然后根据自身成本给产品定价。
想要彻底解决摩尔定律失效的问题,需要跳出当前芯片设计的冯·诺依曼结构。类脑芯片、存算一体、寻找基于硅以外的新材料制造芯片,甚至量子计算等等都是潜力巨大的解决方案,但是这些方案距离成熟落地还非常遥远(最乐观地估计也需要几十年的时间),无法解决当下芯片行业的困局。在这段时期内,行业内为了提升芯片性能,开始广泛应用Chiplet技术,或者使用碳基芯片、光芯片等等。
Chiplet技术
Chiplet技术的原理有点类似搭积木,简单来说就是把一堆小芯片组合成一块大芯片。这种技术能够以较低的成本制造过于复杂的芯片,并且保证足够优秀的良率,从2012年开始就逐步被使用。当前Chiplet技术已经能够在二维平面上实现用不同的材料和工艺加工拼接的小核心,Intel等公司正在把Chiplet技术引入新的阶段发展:在垂直方向上堆叠多层小核心,进一步提升芯片的性能(例如Intel于2018年开发的Foveros3DChiplet)。不过Chiplet技术路线面临的最大问题来源于芯片热管理方面:如果在三维结构上堆叠多层小核心,传统的通过CPU顶部铜盖一个面散热的方案将无法解决发热问题,因此可能需要在芯片的内部嵌入冷却装置来解决发热功率过高的问题。
碳纳米管技术
使用碳纳米管可能是另一个短期解决方案。这项技术属于碳基芯片领域,具体来说就是用碳纳米管承担芯片里基础元件开关的功能,而不是像传统芯片一样使用掺杂的半导体硅来传输电子。这种技术的优势在于导电性好、散热快、寿命长,而且由于其本质上仍然保留了冯·诺依曼架构,当前的生产工艺、产业链等匹配设施都不需要做出太大的调整。但是目前碳纳米管的大规模生产和应用还有一些困难,距离把碳纳米管按照芯片设计的要求制造出来可能还需要几十年。
短期内,围绕Chiplet技术在热管理方面的探索,和碳纳米管技术的灵活生产制造突破是算力层面上我们重点关注的机会。当然,我们也要了解目前类脑芯片、存算一体和量子计算等终局解决方案的相关情况。这里为大家简单介绍如下:
类脑芯片
类脑芯片的灵感源于人脑。类脑芯片和传统结构的差异体现在两方面:第一,类脑芯片中数据的读取、存储和计算是在同一个单元中同时完成的,也即“存算一体”;第二,单元之间的连接像人类神经元之间的连接一样,依靠“事件驱动。
目前,类脑芯片的相关研究分为两派。一派认为需要了解清楚人脑的工作原理,才能模仿人类大脑设计出新的结构。但是目前人类对人脑的基本原理理解得仍然很粗浅,因此这一派取得的进展相当有限。另外一派则认为,可以先基于当前已有的生物学知识,比照人脑的基础单元设计出一些结构,然后不断试验、优化、取得成果,实现突破。目前这一派的研究人员依照神经元的基础结构,给类脑芯片做了一些数学描述,也搭建了模型,并且做出了不少可以运行的芯片。
存算一体
存算一体可以简单被概括为“用存储电荷的方式实现计算”,彻底解决了冯诺依曼结构中“存储”和“计算”两个步骤速度不匹配的问题(事实上,在以硅为基础的半导体芯片出现之后,存算速度不匹配的情况就一直存在)。存算一体机构在计算深度学习相关的任务时表现突出,能耗大约是当前传统计算设备的百分之一,能够大大提升人工智能的性能。除此之外,这种芯片在VR和AR眼镜等可穿戴设备上有广阔的应用前景,也能推动更高分辨率的显示设备价格进一步降低。
目前,存算一体仍然有两个问题没有突破:第一是基础单元(忆阻器)的精度不高,其次是缺少算法,在应对除了矩阵乘法以外的计算问题时表现远不如冯·诺依曼结构的芯片。
量子计算
量子计算是用特殊的方法控制若干个处于量子叠加态的原子,也叫作“量子”,通过指定的量子态来实现计算。量子计算机最适合的是面对一大堆可能性的时候,可以同时对所有可能性做运算。为了从所有的结果中找一个统计规律,我们需要使用量子计算机进行多次计算。不过由于退相干的问题,量子计算很容易出错。目前量子计算的纠错方法有待突破,只有解决了这个问题量子计算才可能被普遍使用。
当前量子计算机体积过大、运行环境严苛、造价昂贵。目前来看量子计算与经典计算不是取代与被取代的关系,而是在对算力要求极高的特定场景中发挥其高速并行计算的独特优势。中科大的量子物理学家陆朝阳曾总结道,“到目前为止,真正可以从量子计算中受益的实际问题仍然非常有限,享受指数级加速的就更少了——其他的仅有更有限的加速”。
总体而言,量子计算机的相关成果都只停留在科学研究的阶段,距离实际应用还很遥远。
2.算法
算法层指各类机器学习算法。如果根据训练方法来分类,机器学习算法也可以分成“无监督学习”、“监督学习”和“强化学习”等。按照解决问题的类型来分,机器学习算法包括计算机视觉算法(CV)、自然语言处理算法(NLP)、语音处理和识别算法(ASR)、智慧决策算法(DMS)等。每个算法大类下又有多个具体子技术,这里我们为大家简单介绍:
2.1计算机视觉
计算机视觉的历史可以追溯到1966年,当时人工智能学家Minsky要求学生编写一个程序,让计算机向人类呈现它通过摄像头看到了什么。到了1970-1980年代,科学家试图从人类看东西的方法中获得借鉴。这一阶段计算机视觉主要应用于光学字符识别、工件识别、显微/航空图片的识别等领域。
到了90年代,计算机视觉技术取得了更大的发展,也开始广泛应用于工业领域。一方面是由于GPU、DSP等图像处理硬件技术有了飞速进步;另一方面是人们也开始尝试不同的算法,包括统计方法和局部特征描述符的引入。进入21世纪,以往许多基于规则的处理方式,都被机器学习所替代,算法自行从海量数据中总结归纳物体的特征,然后进行识别和判断。这一阶段涌现出了非常多的应用,包括相机人脸检测、安防人脸识别、车牌识别等等。
2010年以后,深度学习的应用将各类视觉相关任务的识别精度大幅提升,拓展了计算机视觉技术的应用场景:除了在安防领域应用外,计算机视觉也被应用于商品拍照搜索、智能影像诊断、照片自动分类等场景。
再细分地来看,计算机视觉领域主要包括图像处理、图像识别和检测,以及图像理解等分支:
图像处理:指不涉及高层语义,仅针对底层像素的处理。典型任务包括图片去模糊、超分辨率处理、滤镜处理等。运用到视频上,主要是对视频进行滤镜处理。这些技术目前已经相对成熟,在各类P图软件、视频处理软件中随处可见;
图像识别和检测:图像识别检测的过程包括图像预处理、图像分割、特征提取和判断匹配,可以用来处理分类问题(如识别图片的内容是不是猫)、定位问题(如识别图片中的猫在哪里)、检测问题(如识别图片中有哪些动物、分别在哪里)、分割问题(如图片中的哪些像素区域是猫)等。这些技术也已比较成熟,图像上的应用包括人脸检测识别、OCR(光学字符识别)等,视频上可用来识别影片中的明星;
图像理解:图像理解本质上是图像与文本间的交互,可用来执行基于文本的图像搜索、图像描述生成、图像问答(给定图像和问题,输出答案)等。图像理解任务目前还没有取得非常成熟的结果,商业化场景也正在探索之;
总体而言,计算机视觉已经达到了娱乐用、工具用的初级阶段。未来,计算机视觉有望进入自主理解、甚至分析决策的高级阶段,真正赋予机器“看”的能力,从而在智能家居、无人车等应用场景发挥更大的价值。
2.2语音识别
第一个真正基于电子计算机的语音识别系统出现在1952年。1980年代,随着全球性的电传业务积累了大量文本可作为机读语料用于模型的训练和统计,语音识别技术取得突破:这一时期研究的重点是大词汇量、非特定人的连续语音识别。1990年代,语音识别技术基本成熟,但识别效果与真正实用还有一定距离,语音识别研究的进展也逐渐趋缓。
随着深度神经网络被应用到语音的声学建模中,人们陆续在音素识别任务和大词汇量连续语音识别任务上取得突破。而随着循环神经网络(RNN)的引入,语音识别效果进一步得到提升,在许多(尤其是近场)语音识别任务上达到了可以进入人们日常生活的标准。以AppleSiri为代表的智能语音助手、以Echo为首的智能硬件等应用的普及又进一步扩充了语料资源的收集渠道,为语言和声学模型的训练储备了丰富的燃料,使得构建大规模通用语言模型和声学模型成为可能。
与语音识别紧密关联的是语音处理。语音处理为我们提供了语音转文字、多语言翻译、虚拟助手等一系列软件。一个完整的语音处理系统,包括前端的信号处理、中间的语音语义识别和对话管理(更多涉及自然语言处理),以及后期的语音合成。
前端信号处理:语音的前端处理涵盖说话人声检测、回声消除、唤醒词识别、麦克风阵列处理、语音增强。
语音识别:语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。
语音合成:语音合成的几个步骤包括文本分析、语言学分析、音长估算、发音参数估计等。基于现有技术合成的语音在清晰度和可懂度上已经达到了较好的水平,但机器口音还是比较明显。目前的几个研究方向包括如何使合成语音听起来更自然、如何使合成语音的表现力更丰富,以及如何实现自然流畅的多语言混合合成。
2.3自然语言处理
早在1950年代,人们就有了自然语言处理的任务需求,其中最典型的就是机器翻译。到了1990年代,随着计算机的计算速度和存储量大幅增加、大规模真实文本的积累产生,以及被互联网发展激发出的、以网页搜索为代表的基于自然语言的信息检索和抽取需求出现,自然语言处理进入了发展繁荣期。在传统的基于规则的处理技术中,人们引入了更多数据驱动的统计方法,将自然语言处理的研究推向了一个新高度。
进入2010年以后,基于大数据和浅层、深层学习技术,自然语言处理的效果得到了进一步优化,出现了专门的智能翻译产品、客服机器人、智能助手等产品。这一时期的一个重要里程碑事件是IBM研发的Watson系统参加综艺问答节目Jeopardy。机器翻译方面,谷歌推出的神经网络机器翻译(GNMT)相比传统的基于词组的机器翻译(PBMT),在翻译的准确率上取得了非常强劲的提升。
自然语言处理从流程上看,分成自然语言理解(NLU)和自然语言生成(NLG)两部分,这里我们简单为大家介绍知识图谱、语义理解、对话管理等研究方向。
知识图谱:知识图谱基于语义层面,对知识进行组织后得到的结构化结果,可以用来回答简单事实类的问题,包括语言知识图谱(词义上下位、同义词等)、常识知识图谱(“鸟会飞但兔子不会飞”)、实体关系图谱(“刘德华的妻子是朱丽倩”)。知识图谱的构建过程其实就是获取知识、表示知识、应用知识的过程。
语义理解:核心问题是如何从形式与意义的多对多映射中,根据当前语境找到一种最合适的映射。以中文为例,需要解决歧义消除、上下文关联性、意图识别、情感识别等困难。
对话管理:为了让机器在与人沟通的过程中不显得那么智障,还需要在对话管理上有所突破。目前对话管理主要包含三种情形:闲聊、问答、任务驱动型对话。
2.4规划决策系统
真正基于人工智能的规划决策系统出现在电子计算机诞生之后。1990年代,硬件性能、算法能力等都得到了大幅提升,在1997年IBM研发的深蓝(DeepBlue)战胜国际象棋大师卡斯帕罗夫。到了2016年,硬件层面出现了基于GPU、TPU的并行计算,算法层面出现了蒙特卡洛决策树与深度神经网络的结合。人类在完美信息博弈的游戏中已彻底输给机器,只能在不完美信息的德州扑克和麻将中苟延残喘。人们从棋类游戏中积累的知识和经验,也被应用在更广泛的需要决策规划的领域,包括机器人控制、无人车等等。
2.5算法的发展趋势和面临的瓶颈
近年来。处在机器学习也产生了几个重要的研究方向,例如从解决凸优化问题到解决非凸优化问题,以及从监督学习向非监督学习、强化学习的演进:
从解决凸优化问题到解决非凸优化问题
目前机器学习中的大部分问题,都可以通过加上一定的约束条件,转化或近似为一个凸优化问题。凸优化问题是指将所有的考虑因素表示为一组函数,然后从中选出一个最优解。而凸优化问题的一个很好的特性是局部最优就是全局最优。这个特性使得人们能通过梯度下降法寻找到下降的方向,找到的局部最优解就会是全局最优解。
然而在现实生活中,真正符合凸优化性质的问题其实并不多,目前对凸优化问题的关注仅仅是因为这类问题更容易解决。人们现在还缺乏针对非凸优化问题的行之有效的算法。
从监督学习向非监督学习、强化学习的演进
目前来看,大部分的AI应用都是通过监督学习,利用一组已标注的训练数据,对分类器的参数进行调整,使其达到所要求的性能。但在现实生活中,监督学习不足以被称为“智能”。对照人类的学习过程,许多都是建立在与事物的交互中,通过人类自身的体会、领悟,得到对事物的理解,并将之应用于未来的生活中。而机器的局限就在于缺乏这些“常识”。
无监督学习领域近期的研究重点在于“生成对抗网络”(GANs),而强化学习的一个重要研究方向在于建立一个有效的、与真实世界存在交互的仿真模拟环境,不断训练,模拟采取各种动作、接受各种反馈,以此对模型进行训练。
从“堆数据”到研发低训练成本的算法
MITDigitalLab的研究者联合韩国的相关机构在2020年发表了一项基于1058篇深度学习的论文和数据的研究。在分析了现有的深度学习论文成果后,研究人员提出了一个悲观的预言:深度学习会随着计算量的限制,在到达某个性能水平后停滞不前,因为在深度学习领域有这样一条规律:想提升X倍的性能,最少需要用X^2倍的数据去训练模型,且这个过程要消耗X^4倍的计算量。即便是10倍性能提升和1万倍计算量的提升,这样失衡的比例关系也仅仅是理论上最优的。在现实中,提升10倍性能往往要搭上10亿倍的运算量。以今天地球资源的状况看,想把一些常用的模型错误率降低到人们满意的程度,代价高到人类不能承受。因此,在深度学习领域非常值得关注的是可大幅降低训练成本的新算法创新。
图像分类、物体识别、语义问答等多个领域AI算法准确率及对应所需算力(Gflops)、碳排放量和经济成本
(Today水平截止于2020年已经发表的成果)
3.数据
数据层指的是人工智能为不同的行业提供解决方案时所采集和利用的数据。事实上,使用人工智能解决问题的步骤绝不仅仅包括搜集和整理数据。这里我们简单介绍一下完整的流程和思路:
收集数据:数据的数量和质量直接决定了模型的质量。
数据准备:在使用数据前需要对数据进行清洗和一系列处理工作。
模型选择:不同的模型往往有各自擅长处理的问题。只有把问题抽象成数学模型后,我们才能选择出比较适合的模型,而这一步往往也是非常困难的。
训练:这个过程不需要人来参与,机器使用数学方法对模型进行求解,完成相关的数学运算。
评估:评估模型是否较好地解决了我们的问题。
参数调整:可以以任何方式进一步改进训练(比如调整先前假定的参数)。
预测:开始使用模型解决问题。
如果我们想利用人工智能解决的问题被限定在足够小的领域内,那么我们就更容易活动具体场景下的训练数据,从而更高效、更有针对性地训练模型。在金融、律政、医疗等行业的细分场景下,人工智能已经逐步被应用,且已经实现了一定的商业化。
一、为什么是机器人
1.机器人的外延及框架
虽然机器人产业已有超过60年发展史,在传统【工业机器人】及【服务机器人】分析框架下,全球机器人产业仅有300-400亿美元行业规模,但我们认为,在智能化加持下,机器人的外延及边界已被数倍扩大,新物种的诞生及传统设备的智能化将共同驱动“机器人”产业十倍及百倍增长。
概括来讲,机器人普遍存在的意义是“为人类服务”的可运动智能设备,包括机器人对于人类劳动的替代、完成人类所无法完成任务的能力延伸以及情感陪伴等价值。
面对人类对于物质及精神永不停止的需求增长,相对于元宇宙,机器人将会是“现实宇宙”中的最佳供给方案。
2.AI将会带给机器人怎样的质变
(1)智能化大幅提升
可软件升级:传统机器人无法实现软件算法在线升级,智能化机器人能够通过软件算法的迭代持续提升性能;这让机器人的能力理论上是没有上限的
规模效应:机器人应用规模越大,收集数据越多,算法迭代越完善,机器人越好用
可适用性大幅增加:机器人智慧程度线性增加,可适用的场景及价值将会指数增加
(2)智能化带来的场景适用性提升
AI技术将会是机器人全面爆发的最大变量,机器人产业的爆发极有可能是新物种引领;例如近三年全面爆发的机器人项目,在10年前几乎不存在(例如九号公司、石头科技、普渡、擎朗、云迹、高仙、梅卡曼德、极智嘉等)。
二、为什么是现在?
1.劳动力替代及升级趋势不可逆
在人口老龄化趋势下,2015-2020年,我国劳动力人口减少约1700万人,我国人均收入从4.97万元增至7.15万元,在用工难及用工贵的不可逆趋势下,智能化机器人的补充成为最重要的生产力增长点。
2021年我国人均GDP已超1.2万美元,在我国将成为全球人口最多的高收入国家(门槛为人均1.25万美元)的进程中,作为全球最大的制造业大国转型升级,将会带来全世界体量最大的机器人用工需求。
2.成熟的技术与产业基础
我们认为,智能手机及智能汽车产业的发展,实质上为现阶段智能机器人产业爆发奠定了大量技术基础:
感知层面:视觉模组、激光雷达、毫米波雷达的逐渐发展,成本降低到可用的程度;数据采集、算法训练及软件在线迭代为智能机器人未来持续升级提供了借鉴范式;
决策层面:智能SoC芯片提供了足够的算力基础,汽车自动驾驶与移动机器人在底层技术上亦有相通之处;
控制层面:近十年锂电技术提升了电池续航能力,同时有线及无线充电技术快速进步,5G及WIFI技术发展为机器人提供了通讯控制基础;
环境基础:我国拥有全世界最适合机器人产业发展的土壤,例如低成本敏捷供应链、低成本清洁能源供给、工程师红利、最广大数据收集场景;现阶段创造一款机器人新品的零配件采购难度要远低于十年前;
三、如何判断未来十年新机遇
1.从职业场景出发——寻找未被满足的大赛道
我们认为投资机构在机器人领域投的并不单纯是智能硬件或国产替代,而是押注未来数个万亿级、数十个千亿级、上百个百亿级工作场景的无人化;未来机器人公司主流定价方式很可能取决于可替代的必要劳动价值,机器人公司直接提供高粘性持续的收费服务(RobotasaService),而非按照传统的“BOM成本+一定的毛利空间”去定价。
我们收集了不同职业场景的从业人数及人均收入数据,得出不同职业劳动力成本总和,制作了机器人领域潜在替代场景图谱。
未来机器人对于人工的替代将从大场景、低复杂度入手,逐步向中小型场景、高复杂度渗透;未来10年最有潜力的投资方向将会是现阶段供给基本空白的大场景。
数据来源:国家统计局等机构
上图部分职业又可细分出上百个环节(根据“十四五”机器人发展规划)
(1)制造业:焊接、自动搬运、防爆物品生产、分拣、包装、协作生产、打磨、装配等工作
(2)建筑业:建筑部件智能化生产、测量、材料配送、钢筋加工、混凝土浇筑、楼面墙面装饰装修、构部件安装、焊接等工作
(3)农业:可进一步拆分为果园除草、精准植保、果蔬剪枝、采摘收获、分选,以及用于畜禽养殖业的喂料、巡检、清淤泥、清网衣附着物、消毒处理等工作
(4)矿业:采掘、支护、钻孔、巡检、重载辅助运输等工作
(5)医疗康复:手术、护理、检查、康复、咨询、配送等工作
(6)养老助残:助行、助浴、物品递送、情感陪护、智能假肢等应用
(7)家用场景:家务劳动、教育、娱乐、安防监控等工作
(8)公共场所:讲解导引、餐饮、配送、代步等工作
(9)水下场景:水下探测、监测、作业、深海矿产资源开发等工作
(10)安防场景:安保巡逻、缉私安检、反恐防暴、勘查取证、交通管理、边防管理、治安管控等工作
(11)危险环境作业:消防、应急救援、安全巡检、核工业操作、海洋捕捞等工作
(12)卫生防疫:检验采样、消毒清洁、室内配送、辅助移位、辅助巡诊查房、重症护理辅助操作等工作
2.从技术可行性出发——细分场景的实现难度
(1)从【场景是否单一】及【工作复杂度】两个维度进行分析
分析一项职业被机器人替代的难度,我们认为可以落入以下四个象限进行分析;其中场景维度指该项工作是否需要适应多变的环境,是否需要转移;复杂度指完成该项工作需要的知识储备多少及解决问题的难度
A.单一场景、低复杂度:例如简单的加工制造工序、搬运、安保、清洁、农业养殖等劳动更容易率先实现机器替代
B.单一场景、高复杂度:例如绘画、音乐演奏、作家、医生、教育、财务、销售、厨师等场景
C.多场景、低复杂度:例如应对不同场景下的无人驾驶,不同种类的家务劳动
D.多场景、高复杂度:例如警察、外交官、企业管理人员、研发创新等工作
(2)从机器与人类的思维长处分析
机器智能在大规模数据与信息处理、细节分析等方面具备天然优势
在需要情感、综合推理、想象力、创造力等方面的职业,人类被机器人替代的难度较大
3.从经济性出发——替代人效比
如何判断某个细分场景下,是否已经到达了机器人应用拐点?我们认为核心指标是替代人效比,即机器人的购买及维护成本相对于同岗位人力成本的回本周期
ROI<48个月时,该细分赛道会有产品出现,客户开始考虑尝试
ROI<24个月时,该细分赛道客户开始批量购买测试
ROI<12个月时,市场开始全产爆发
经济性逐渐提升背后的因素:人员成本上涨、人力紧缺、上游零配件成本下降、规模量产降低了成本、AI技术发展使得功能实现的成本降低等
四、机器人智能化三要素解析
什么样的机器人能够称得上是智能机器人?目前世界范围内还没有一个统一定义
我们认为如果对智能机器人进行抽象化解析,往往需要具备三大要素——即感知、决策和控制。
感知要素:用来认识周围环境状态,包括能感知视觉、接近、距离等的非接触型传感器和能感知力、压觉、触觉等的接触型传感器。这些要素实质上就是相当于人的眼、鼻、耳等五官,功能可以利用诸如摄像机、像传感器、超声波传成器、激光器、导电橡胶、压电元件、气动元件、行程开关等机电元器件来实现。
决策要素:也称为思考要素,根据传感器收集的数据,思考出采用什么样的动作。智能机器人的思考要素是三个要素中的关键。思考要素包括有判断、逻辑分析、理解等方面的智力活动。这些智力活动实质上是一个信息处理过程,而计算机则是完成这个处理过程的主要手段。
控制要素:也称为运动要素,对外界做出反应性动作;对运动要素来说,智能机器人需要有一个无轨道型的移动机构,以适应诸如平地、台阶、墙壁、楼梯、坡道等不同的地理环境。它们的功能可以借助轮子、履带、支脚、吸盘、气垫等移动机构来完成。在运动过程中要对移动机构进行实时控制,这种控制不仅要包括有位置控制,而且还要有力度控制、位置与力度混合控制、伸缩率控制等。
从商业机会的角度来讲,三大要素并不是独立割裂的,例如做视觉传感器的玩家往往要配套相应的软件算法,服务于各细分场景的厂商需要极强的多传感器融合、多机型控制及面向行业的智能决策能力。
三大要素中既有专精于某一环节的零部件或软件供应商机会(如核心零部件、操作系统、关键控制算法等),也有整合了其中2-3个环节的关键技术要素,为细分场景提供全套服务的应用机会(例如在清洁、配送、交通等场景的机器人服务商)。
1.感知——机器人感觉器官
(1)传感器分类
内部传感器:内部传感器是用于测量机器人自身状态的功能元件,其功能是测量运动学量和力学量,用于机器人感知自身的运动状态,使得机器人可以按照规定的位置、轨迹和速度等参数运动;包括位置传感器、速度传感器、加速度传感器、力传感器、压力传感器、力矩传感器、姿态传感器等。
外部传感器:外部传感器主要是感知机器人自身所处环境以及自身和环境之家的相互信息,包括视觉、力觉等。包括激光雷达、嗅觉传感器、视觉传感器、语音合成、语音识别、可见光和红外线传感器等。
(2)传感器在智能机器人的应用
视觉和接近传感器:类似于自动驾驶车辆所需的传感器,包括摄像头、红外线、声纳、超声波、雷达和激光雷达。某些情况下可以使用多个摄像头,尤其是立体视觉。将这些传感器组合起来使用,机器人便可以确定尺寸,识别物体,并确定其距离。
触觉传感器:微型开关是接触传感器最常用型式,另有隔离式双态接触传感器(即双稳态开关半导体电路)、单模拟量传感器、矩阵传感器(压电元件的矩阵传感器、人工皮肤——变电导聚合物、光反射触觉传感器等)。
射频识别(RFID)传感器:可以提供识别码并允许得到许可的机器人获取其他信息。
声学传感器(麦克风):帮助机器人接收语音命令并识别熟悉环境中的异常声音。如果加上压电传感器,还可以识别并消除振动引起的噪声,避免机器人错误理解语音命令。先进的算法甚至可以让机器人了解说话者的情绪。
湿温度传感器:是机器人自我诊断的一部分,可用于确定其周遭的环境,避免潜在的有害热源。利用化学、光学和颜色传感器,机器人能够评估、调整和检测其环境中存在的问题。
运动稳定性感知:对于可以走路、跑步甚至跳舞的人形机器人,稳定性是一个主要问题。它们需要与智能手机相同类型的传感器,以便提供机器人的准确位置数据。在这些应用采用了具有3轴加速度计、3轴陀螺仪和3轴磁力计的9自由度(9DOF)传感器或惯性测量单元(IMU)。
传感器微型化趋势:过去传感器的性能与体积往往成正比,限制了其在机器人领域应用。芯片制程技术提升使微型传感器的制造成为可能,从而广泛应用于机器人领域。
(3)多传感器融合是未来趋势
多传感器信息融合技术是近年来十分热门的研究课题,指综合来自多个传感器的感知数据,经过融合的多传感器系统能够更加完善、精确地反映检测对象的特性,消除信息的不确定性,提高信息的可靠性。融合后的多传感器信息具有以下特性:冗余性、互补性、实时性和低成本性。
多传感器信息融合方法主要有贝叶斯估计、Dempster-Shafer理论、卡尔曼滤波、神经网络、小波变换等。
2.决策——机器人大脑
机器人决策我们认为是最具场景差异化的部分,因为不同职业场景下的工作方式、思维逻辑是大相径庭的;在机器人算法与决策方面的创业团队需要非常熟悉场景需求,提炼出标准化的操作流程,然后应用于机器人软硬件控制中。
想要让机器人解决问题我们需要完成三个步骤:第一,明确问题的方向和边界;第二,建立数学模型;最后,找到合适的算法解决问题。这里我们重点讨论将复杂的现实问题转化为数学语言的“建模”过程和选择算法的过程。
建模的第一步需要确定假设。我们需要先明确想让机器人做出什么样精度的决策,以及能否实现,从而确定需要考虑和舍弃哪些要素。在确定了重要变量和核心关系后,我们就把复杂的现实问题转化成计算机可以理解、算法可以处理的数学问题。确定假设后,常识能帮助我们验证模型,但是多数情况下需要我们不断地将模型和现实问题作比较,从而把现实问题尽可能无损地映射进计算机里面。
在建立了模型后,我们需要选择合适的算法来解决不同模型对应的具体现实问题。在进行算法选择的时候需要具体问题具体分析,兼顾“质量”与“效率”。比如同样是让计算机处理图像数据,家庭场景下的扫地机器人和专门用来处理天文观测数据的计算机对算法要求就不一样:前者要求在较快的时间内完成对图像精准度适中的处理,而后者对时间则无感,对精准度有极高的要求。也正是因为绝大多数问题不存在唯一解或者绝对正确的解,算法工程师需要根据机器人工作的场景和目标做出最合适的取舍。
在机器人决策环节中,让机器人自身的硬件处理多少计算任务是一个关键的问题。通常情况下,如果任务的执行依赖于多个机器人采集的多点数据,那么计算任务就更可能在多点数据汇集起来后,被放在远端的云服务器上进行处理。比如,如果有大量的机器人在特定的街区内追捕嫌犯,那么我们就需要所有机器人把采集到的图像等信息上传到云端处理,在一个“大脑中枢”规划了每一个机器人的路径后,每个机器人执行自己所接收到的指令。当然,多数情况下应用云计算的场景是,每个机器人自身的芯片算力不足或者单位能耗过大。云计算提供了一种更加经济的算力解决方案,帮助机器人解决所面临的问题。在此基础上,为了避免网络带宽不足、处理时间过长等问题,人们还会使用边缘计算、雾计算等方案。
以上是机器人决策部分所需要考虑的共性问题。当然,不同场景下机器人所面临的的决策问题非常不同,我们认为这也是机器人应用中最具场景差异化的部分。不过站在更高的维度上进行抽象后,我们依然能够发现大多数机器人都需要面对三大类决策问题:按照什么规则移动位置——移动决策、按照什么规则调整自身——机械臂运动决策,以及如何保障贯彻人类指令——人机交互决策。
(1)平面移动能力
定位导航技术需要机器人的感知能力,需要借助视觉传感器(如激光雷达)来帮助机器人完成周围环境的扫描,并配合相应的算法,构建有效的地图数据,以完成运算,最终实现机器人的自主定位导航。
同步定位:主要涉及激光SLAM以及视觉SLAM。前者主要采用2D或3D激光雷达进行数据搜集,后者主要有两种技术路径——基于RGBD的深度摄像机和基于单目、双目或鱼眼摄像头。
地图构建:机器人学中的地图构建主要有4种:栅格地图、特征点地图、直接表征法以及拓扑地图。
路径规划:路径规划是导航研究中的一个重要环节,主要方法有3种:基于事例的学习方法、基于环境模型的规划方法、基于行为的路径规划方法。
(2)三维空间运动能力
空间机械臂操控过程中涉及的5项关键技术,包括:交会对接与捕获技术、自主规划与智能控制技术、传感与感知技术、智能协同与操控技术及系统安全保障技术。
视觉系统的是智能机械臂三维运动最重要的组成部分,主要由计算机、摄影设备及图像采集设备构成。机器人视觉系统工作过程主要有图像采集、图像分析、图像输出等,其中,图像特征分析、图像辨别、图像分割均为关键任务,视觉信息的压缩和滤波处理、特定环境标志识别、环境和故障物检测等是视觉信息处理中难度最大、最核心的过程。
(3)人机交互能力
语音交互:结合语音人机交互过程,人机交互中的关键技术中包含了自然语音处理、语义分析和理解、知识构建和学习体系、语音技术、整合通信技术以及云计算处理技术。
视觉交互:机器人如果需要理解人类的感情,就会涉及人脸识别技术,包括特征提取及分类。
手势交互:目前,常用的手势识别方法主要包括基于神经网络的识别方法、基于隐马尔可夫模型的识别方法和基于几何特征的识别方法。
3.控制——机器人运动能力
(1)常见的运动控制部件
机器人三大核心零部件为减速器、伺服电机、控制器,三大部件成本占机器人成本70%左右,其中减速器占成本构成35%左右,伺服电机占23%左右,控制器占12%左右。
我国工业机器人零部件目前仍处于追赶者,核心零部件主要依赖进口,但国产厂商(如埃斯顿、汇川技术、绿的谐波等)目前正在由守转攻的转折点,市占率即将超过50%,正在开始获得国外头部客户订单;我们认为机器人核心零部件进口只是短期问题,未来3-5年我国在制造水平及成本上有望全面赶超国外水平。
在服务机器人领域(如餐饮、清洁、递送等机器人),我国零部件及本体制造已达到全球领先水平;在供应链优势下,技术及成本上有望进一步突破。
数据来源:公司公告、浙商证券研究所,部分国产份额为预估值
(2)机器人运动如何进一步发展
与其他形态的机器人(如履带式、轮式等)相比,腿足式机器人在移动范围和灵活性上有巨大优势。但是实现行走乃至跑跳对腿足式机器人来说并不容易,除了BostonDynamics研发的腿足式机器人(如Atlas)之外,我们很少看到其他公司研发出灵活的、具有优秀平衡感腿足式机器人
要想让机器人像人一样灵巧、平稳地移动,并在此基础上完成复杂的任务,机器人的每一步都需要动态平衡,需要对瞬间的不稳定性有极强的适应能力。这包括需要快速调整脚的着地点,计算出突然转向需要施加多大的力,更重要的是还要在极短的时间内向足部实施非常大而又精准的力。这对控制理论、系统集成和工程实现等多个