中国人工智能有多厉害未来机器人能直接做手术,比美日都领先
图为人工智能机器人
中国人工智能技术在海外传来捷报,国外订单直接暴涨,外国友人还表示中国人工智能十分先进,比美日都领先,那中国人工智能有多厉害?专家表示,中国按这个势头发展人工智能的话,未来机器人能直接做手术。对此,有网友疑问道:机器人比科学家还聪明?答案是肯定的,机器人只要经过不断地学习,就能达到博学的水平。那么,中国的人工智能到底有多先进呢?
图为人工智能机器人
现在全球高精尖领域的代表技术之一,就是人工智能技术。所谓人工智能,就是让机器人或者程序按照既定的算法,不断地去学习各种知识,再通过自带的算法达到举一反三的效果。相比于人类,人工智能的信息处理速度更快,信息的储存量也更大,专家表示,未来人类科学技术发展的大方向之一,就是人工智能。
图为人工智能机器人
人工智能是近些年才逐渐崛起的新技术,在人工智能领域,西方国家是起步比较早的,早在上世纪末,由西方国家研制的棋手机器人,在经过几万局的围棋对弈比赛的学习后,就具备了击败围棋冠军的能力,也让世人第一次见识到了人工智能的厉害之处。近些年,西方国家在工业机器人、汽车自动驾驶、船舶自动控制领域都有研究,也取得了很大的发展,一定程度上也掌握着人工智能领域的话语权。
中国的人工智能技术也是近些年起步的,虽说起步时间没有西方国家早,但技术发展程度却丝毫不弱于西方国家。近些年,中国的人工智能团队屡次在世界级的比赛中斩获大奖,而在人工智能的基础,也就是数学和计算机领域,中国这些年发展也很迅速,互联网产业至今都是中国各行各业的领军人物。近期,中国更是研究出了医用手术机器人,把人工智能技术又推到了一个新的高度。
图为人工智能机器人
据悉,此次中国研发的医用手术机器人,有望在未来取代部分医生的岗位。这款机器人有着很强的学习和模仿能力,通过不断地学习医学理论知识和操作知识,就能逐渐掌握做手术的方法。相比于医生,机器人的学习能力和成长性都有更大的优势。据知情人士透露,如果这款机器人完成学习,将来就有望从事风险较高的手术工作,从而解放人力。
手术是一个非常精准的工作,需要大量的实地操作才能积累下来经验,这也导致了能力强的主刀医生十分缺乏,一定程度上造成了国内”就医难“的问题。而随着这款医用手术机器人的问世,不仅可以批量化复制优秀的主刀医生,让急诊和急救资源不再紧张,而且对高危手术的风险也会降低,可以说是造福百姓的一大利器。
深度研报:人工智能机器人开启第四次科技革命
图片来源@视觉中国
文|光锥智能&势乘资本,作者|谢晨星、王嘉攀、赵江宇
在互联网红利基本散尽的时代,未来到底属于web3、元宇宙,还是碳中和?到底什么样的革命性技术可以引领人类社会走出经济衰退、疫情和战争的影响,并将全球经济体量再向上推动数十倍?
我们的答案是,我们早已处于人工智能时代之中。
我们正处于传统信息技术时代的黄昏,和人工智能时代的黎明。
在过去的260年间,人类社会经历了三次巨大的科技创新浪潮,蒸汽机、电力和信息技术,将全球GDP提升了近千倍。每一次科技浪潮都通过某一项先进生产力要素的突破,进而引起大多数行业的变革:比如蒸汽机的出现推动了汽车、火车、轮船、钢铁等行业的巨大发展,140年前美国铁路行业的恶性竞争史,就如同现今互联网行业BAT之间的竞争。而铁路行业发展、兼并所需的巨额金融资本,又驱动了华尔街的发展,逐渐成为全球的金融中心。
二战之后以信息技术为核心的第三次科技革命迄今已逾70年,将全球GDP提升约60倍。其中可分为两段:1950年-1990年,是半导体产业迅猛发展的时代,推动了大型计算机向个人PC的小型化;1990年至今是近30年的互联网全球化时代,而互联网时代又细分为桌面互联网和移动互联网两段。
但随着摩尔定律的失效和信息技术红利彻底用尽,加上疫情黑天鹅影响,全球GDP衰退,引发并加剧了全球地缘政治和军事冲突,开始向逆全球化发展。
所以未来到底属于web3、元宇宙,还是碳中和?到底什么样的革命性技术可以引领人类社会走出经济衰退、疫情和战争的影响,并将全球经济体量再向上推动增长下一个50倍?
我们的答案是,我们早已处于人工智能时代之中。就像直到2010年iphone4发布,绝大多数人也并未意识到移动互联网革命早已开始一样,如今人工智能其实也已广泛应用,比如到处遍布的摄像头和手机人脸识别,微信语音和文本转换,抖音动态美颜特效、推荐算法,家庭扫地机器人和餐厅送餐机器人,背后都是人工智能核心技术在过去十年不断取得的巨大突破。
互联网已经是传统行业。
互联网技术作为过去30年最先进的生产力要素,改变了全球的所有人、所有产业、社会经济,甚至是政治、军事、宗教。
虽然互联网的技术红利已基本用尽,但我们仍可通过研究其历史规律,来预测未来新技术发展的可能路径。
30年的互联网发展历程总体可分为桌面互联网和移动互联网两个时代,按产业渗透规律,又可分为信息互联网、消费互联网和产业互联网三大阶段。
系统硬件都是最先起步,包括底层芯片、操作系统、联网通信、整机等,进而初步向媒体工具、文娱游戏行业渗透,因为这些领域最易受新技术的影响。当2002年中国网民达到6000万人,2012年中国智能手机出货量达到2亿部之后,互联网和移动互联网开始全面开花,渗透变革了直接toC的众多行业,如零售消费、交通出行、教育、金融、汽车、居住、医疗等。而当用户量进一步上涨、新技术的渗透进一步加深,企业服务、物流、制造、农业、能源等toB产业被影响。
而这个过程中可以发现,移动互联网时代对产业的渗透深度比桌面互联网更深,桌面互联网介入行业基本停留在信息连接层面,而到移动互联网时代,众多掌握先进技术要素的公司开始自己下场开超市、组车队、重构教育内容和金融机构,甚至是卖房、造车。也有些公司虽然诞生在桌面时代,但成功抓住移动爆发红利杀出重围,比如美团、去哪儿、支付宝。
抖音的崛起是中国移动互联网时代的最大变数,也是数据通信传输技术不断提升的必然,引发了用户流量结构的重组,进而催生了一大批抓住抖音流量红利崛起的消费品牌,如完美日记、花西子等等。但最终都逃不过被平台收割的命运,就像当年淘品牌的结局一样。微信支付、支付宝的普及极大推动了线下连锁零售的数字化程度和管理半径,减少了上下游现金收款产生的风险,促使其在资本市场被重新认可,连锁化率进一步提升,比如喜茶、瑞幸、Manner等等。这两条逻辑共同构成了过去几年的消费投资热潮主线。
如何评判一个新技术是否能引领未来的发展方向?
我们要看它能否从本质上解放生产力、发展生产力。
蒸汽机之所以推动了第一次科技革命,是因为其极大的提升了劳动生产力,并将大量劳动人口从第一产业农业的低级劳动中解放出来,进入第二产业工业。电力加速了这一过程,并推动了第三产业服务业的出现和发展。信息技术将更多的人口从第一、二产业中释放,进入第三产业(如大量年轻人不再进厂而去送外卖、跑滴滴),于是形成了如今全球第三产业GDP占比55%,中国第三产业劳动人口占比50%的格局。
机器人即是人工智能技术的硬件形态,在可见的未来,将第一二三产业的劳动人口从低级劳动中大比例释放和替代,并在这个过程中推动全球GDP继续百倍增长。
同时可大胆预言,以创新为职业的第四产业将会出现,而这个职业在人类的历史长河中其实一直存在于第一二三产业的边缘,不断用突破性创新推动着人类技术的进步,且社会生产力的提升促使该职业人群不断扩大。这大约能证明刘慈欣的技术爆炸假说来源。
人工智能从模块上可分为感知、计算和控制三大部分,由表及里可分为应用层、数据层、算法层、算力层,而随着2012年芯片进入28nm制程后的量子隧穿效应导致摩尔定律失效,“每提升一倍算力,就需要一倍能源”的后摩尔定律或将成为人工智能时代的核心驱动逻辑,算力的发展将极大受制于能源,当前全球用于制造算力芯片的能源占全球用电量的约1%,可以预测在人工智能大规模普及的未来数十年后,该比例将会大幅提升至50%甚至90%以上。而全球如何在减少化石能源、提升清洁能源占比,从而确保减少碳排放遏制全球升温的同时,持续提升能源使用量级,将推动一系列能源技术革命。关于该方向的研究可参考我们的另一篇报告《碳中和:能源技术新革命》。
早在第一次科技革命之前260年,哥伦布地理大发现就使西班牙成为了第一个全球化霸主。蒸汽机驱动英国打败西班牙无敌舰队,电力和两次世界大战使美国超过英国,信息技术又让美国赢得和苏联的冷战对抗,全球过了30年相对和平的单极霸权格局。
因此中国如果仅在现有技术框架中与欧美竞争,只会不断被卡脖子,事倍功半。只有引领下一代人工智能和碳中和能源技术科技革命浪潮,才能从全球竞争中胜出。
尽管中国已经跻身人工智能领域的大国,但是我们必须认识到中美之间在AI领域仍然有着明显的差距。从投资金额和布局上看,从2013年到2021年,美国对人工智能公司的私人投资是中国的2倍多。当前美国AI企业数量领先中国,布局在整个产业链上,尤其在算法、芯片等产业核心领域积累了强大的技术创新优势。更关键的是,尽管近年来中国在人工智能领域的论文和专利数量保持高速增长,但中国AI研究的质量与美国仍然有较大差距(集中体现在AI顶会论文的引用量的差距上)。
请输入图说2013-2021年中美在AI领域私有部门(如风险投资、个人投资等)投资金额上差距逐渐拉大
请输入图说中国在AI顶会上发表的文章数量已经反超美国,但影响力上仍然与美国有较大差距
图片来源:The2022AIIndexReport,StandfordUniversity
因此,中国需要持续加大在AI领域的研发费用规模,特别是加大基础学科的人才培养,吸引全世界优秀的AI人才。只有这样,中国才能有朝一日赶超美国,在基础学科建设、专利及论文发表、高端研发人才、创业投资和领军企业等关键环节上的拥有自己的优势,形成持久领军世界的格局。
一、AI发展简史
人工智能的概念第一次被提出是在1956年达特茅斯夏季人工智能研究会议上。当时的科学家主要讨论了计算机科学领域尚未解决的问题,期待通过模拟人类大脑的运行,解决一些特定领域的具体问题(例如开发几何定理证明器)。
那么到底什么是人工智能?目前看来,StuartRussell与PeterNorvig在《人工智能:一种现代的方法》一书中的定义最为准确:人工智能是有关“智能主体(Intelligentagent)的研究与设计”的学问,而“智能主体”是指一个可以观察周遭环境并做出行动以达致目标的系统。这个定义既强调了人工智能可以根据环境感知做出主动反应,又强调人工智能所做出的反应必须达成目标,同时没有给人造成“人工智能是对人类思维方式或人类总结的思维法则的模仿”这种错觉。
到目前为止,人工智能一共经历了三波浪潮。
第一次AI浪潮与图灵和他提出的“图灵测试”紧密相关。图灵测试刚提出没几年,人们似乎就看到了计算机通过图灵测试的曙光:1966年MIT教授JosephWeizenbaum发明了一个可以和人对话的小程序——Eliza(取名字萧伯纳的戏剧《茶花女》),轰动世界。但是Eliza的程序原理和源代码显示,Eliza本质是一个在话题库里通过关键字映射的方式,根据人的问话回复设定好的答语的程序。不过现在人们认为,Eliza是微软小冰、Siri、Allo和Alexa的真正鼻祖。图灵测试以及为了通过图灵测试而开展的技术研发,都在过去的几十年时间里推动了人工智能,特别是自然语言处理技术(NLP)的飞速发展。
第二次AI浪潮出现在1980-1990年代,语音识别(ASR)是最具代表性的几项突破性进展之一。在当时,语音识别主要分成两大流派:专家系统和概率系统。专家系统严重依赖人类的语言学知识,可拓展性和可适应性都很差,难以解决“不特定语者、大词汇、连续性语音识别”这三大难题。而概率系统则基于大型的语音数据语料库,使用统计模型进行语音识别工作。中国学者李开复在这个领域取得了很大成果,基本上宣告了以专家系统为代表的符号主义学派(SymbolicAI)在语音识别领域的失败。通过引入统计模型,语音识别的准确率提升了一个层次。
第三次AI浪潮起始于2006年,很大程度上归功于深度学习的实用化进程。深度学习兴起建立在以GeoffreyHinton为代表的科学家数十年的积累基础之上。简单地说,深度学习就是把计算机要学习的东西看成一大堆数据,把这些数据丢进一个复杂的、包含多个层级的数据处理网络(深度神经网络),然后检查经过这个网络处理得到的结果数据是不是符合要求——如果符合,就保留这个网络作为目标模型;如果不符合,就一次次地、锲而不舍地调整网络的参数设置,直到输出满足要求为止。本质上,指导深度学习的是一种“实用主义”的思想。实用主义思想让深度学习的感知能力(建模能力)远强于传统的机器学习方法,但也意味着人们难以说出模型中变量的选择、参数的取值与最终的感知能力之间的因果关系。
需要特别说明的是,人们往往容易将深度学习与“机器学习”这一概念混淆。事实上,在1956年人工智能的概念第一次被提出后,ArthurSamuel就提出:机器学习研究和构建的是一种特殊的算法而非某一个特定的算法,是一个宽泛的概念,指的是利用算法使得计算机能够像人一样从数据中挖掘出信息;而深度学习只是机器学习的一个子集,是比其他学习方法使用了更多的参数、模型也更加复杂的一系列算法。简单地说,深度学习就是把计算机要学习的东西看成一大堆数据,把这些数据丢进一个复杂的、包含多个层级的数据处理网络(深度神经网络),然后检查经过这个网络处理得到的结果数据是不是符合要求——如果符合,就保留这个网络作为目标模型,如果不符合,就一次次地、锲而不舍地调整网络的参数设置,直到输出满足要求为止。本质上,指导深度学习的是一种“实用主义”的思想。实用主义思想让深度学习的感知能力(建模能力)远强于传统的机器学习方法,但也意味着人们难以说出模型中变量的选择、参数的取值与最终的感知能力之间的因果关系。
二、AI的三大基石解析
如前所述,人工智能由表及里可分为应用层、数据层、算法层和算力层。
1.算力
算力层包括具备计算能力硬件和大数据基础设施。回顾历史我们就会发现,历次算力层的发展都会显著推动算法层的进步,并促使技术的普及应用。21世纪互联网大规模服务集群的出现、搜索和电商业务带来的大数据积累、GPU和异构/低功耗芯片兴起带来的运算力提升,促成了深度学习的诞生,促成了人工智能的这一波爆发。而AI芯片的出现进一步显著提高了数据处理速度:在CPU的基础上,出现了擅长并行计算的GPU,以及拥有良好运行能效比、更适合深度学习模型的现场可编程门阵列(FPGA)和应用专用集成电路(ASIC)。
当前,人工智能的算力层面临巨大的挑战。随着2012年芯片28nm的工艺出现,原先通过在平面上增加晶体管的数量来提升芯片性能的思路因为量子隧穿效应而不再可取,摩尔定律开始失效。晶体管MOSFET这个芯片里最基础的单元,由平面结构变成立体结构(由下图中的Planar结构转向FinFET结构,2018年之后进一步从FinFET结构转向GAAFET结构)。
三代MOSFET的栅极结构演化。其中灰色代表电流流经区域,绿色代表充当闸门的栅极
芯片结构的改变直接导致了芯片制造步骤的增加,最终体现为成本的上升。在2012年28nm工艺的时候,处理器的生产大概需要450步。到了2021年的5nm工艺时,生产环节已经增加到了1200步。对应到每1亿个栅极的制造成本上,我们从图中可以清楚地看到,从90nm工艺到7nm工艺,生产成本先下降后上升。这就使得摩尔定律的另一种表述形式——“同样性能的新品价格每18-24个月减半”不再成立。未来我们很可能见到的情况是,搭载了顶级技术和工艺生产出来的芯片的电子产品或设备价格高昂,超过了一般消费者的承受力度。
每1亿个栅极的制造成本、图片来源:MarvellTechnology,2020InvestorDay
不过算力层的这个变化让半导体制造企业受益最大,因为只要需求存在,台积电、三星、英特尔等几家掌握先进工艺的厂商就会持续投入资金和人力,不断设计和制造新一代芯片,然后根据自身成本给产品定价。
想要彻底解决摩尔定律失效的问题,需要跳出当前芯片设计的冯·诺依曼结构。类脑芯片、存算一体、寻找基于硅以外的新材料制造芯片,甚至量子计算等等都是潜力巨大的解决方案,但是这些方案距离成熟落地还非常遥远(最乐观地估计也需要几十年的时间),无法解决当下芯片行业的困局。在这段时期内,行业内为了提升芯片性能,开始广泛应用Chiplet技术,或者使用碳基芯片、光芯片等等。
Chiplet技术
Chiplet技术的原理有点类似搭积木,简单来说就是把一堆小芯片组合成一块大芯片。这种技术能够以较低的成本制造过于复杂的芯片,并且保证足够优秀的良率,从2012年开始就逐步被使用。当前Chiplet技术已经能够在二维平面上实现用不同的材料和工艺加工拼接的小核心,Intel等公司正在把Chiplet技术引入新的阶段发展:在垂直方向上堆叠多层小核心,进一步提升芯片的性能(例如Intel于2018年开发的Foveros3DChiplet)。不过Chiplet技术路线面临的最大问题来源于芯片热管理方面:如果在三维结构上堆叠多层小核心,传统的通过CPU顶部铜盖一个面散热的方案将无法解决发热问题,因此可能需要在芯片的内部嵌入冷却装置来解决发热功率过高的问题。
碳纳米管技术
使用碳纳米管可能是另一个短期解决方案。这项技术属于碳基芯片领域,具体来说就是用碳纳米管承担芯片里基础元件开关的功能,而不是像传统芯片一样使用掺杂的半导体硅来传输电子。这种技术的优势在于导电性好、散热快、寿命长,而且由于其本质上仍然保留了冯·诺依曼架构,当前的生产工艺、产业链等匹配设施都不需要做出太大的调整。但是目前碳纳米管的大规模生产和应用还有一些困难,距离把碳纳米管按照芯片设计的要求制造出来可能还需要几十年。
短期内,围绕Chiplet技术在热管理方面的探索,和碳纳米管技术的灵活生产制造突破是算力层面上我们重点关注的机会。当然,我们也要了解目前类脑芯片、存算一体和量子计算等终局解决方案的相关情况。这里为大家简单介绍如下:
类脑芯片
类脑芯片的灵感源于人脑。类脑芯片和传统结构的差异体现在两方面:第一,类脑芯片中数据的读取、存储和计算是在同一个单元中同时完成的,也即“存算一体”;第二,单元之间的连接像人类神经元之间的连接一样,依靠“事件驱动。
目前,类脑芯片的相关研究分为两派。一派认为需要了解清楚人脑的工作原理,才能模仿人类大脑设计出新的结构。但是目前人类对人脑的基本原理理解得仍然很粗浅,因此这一派取得的进展相当有限。另外一派则认为,可以先基于当前已有的生物学知识,比照人脑的基础单元设计出一些结构,然后不断试验、优化、取得成果,实现突破。目前这一派的研究人员依照神经元的基础结构,给类脑芯片做了一些数学描述,也搭建了模型,并且做出了不少可以运行的芯片。
存算一体
存算一体可以简单被概括为“用存储电荷的方式实现计算”,彻底解决了冯诺依曼结构中“存储”和“计算”两个步骤速度不匹配的问题(事实上,在以硅为基础的半导体芯片出现之后,存算速度不匹配的情况就一直存在)。存算一体机构在计算深度学习相关的任务时表现突出,能耗大约是当前传统计算设备的百分之一,能够大大提升人工智能的性能。除此之外,这种芯片在VR和AR眼镜等可穿戴设备上有广阔的应用前景,也能推动更高分辨率的显示设备价格进一步降低。
目前,存算一体仍然有两个问题没有突破:第一是基础单元(忆阻器)的精度不高,其次是缺少算法,在应对除了矩阵乘法以外的计算问题时表现远不如冯·诺依曼结构的芯片。
量子计算
量子计算是用特殊的方法控制若干个处于量子叠加态的原子,也叫作“量子”,通过指定的量子态来实现计算。量子计算机最适合的是面对一大堆可能性的时候,可以同时对所有可能性做运算。为了从所有的结果中找一个统计规律,我们需要使用量子计算机进行多次计算。不过由于退相干的问题,量子计算很容易出错。目前量子计算的纠错方法有待突破,只有解决了这个问题量子计算才可能被普遍使用。
当前量子计算机体积过大、运行环境严苛、造价昂贵。目前来看量子计算与经典计算不是取代与被取代的关系,而是在对算力要求极高的特定场景中发挥其高速并行计算的独特优势。中科大的量子物理学家陆朝阳曾总结道,“到目前为止,真正可以从量子计算中受益的实际问题仍然非常有限,享受指数级加速的就更少了——其他的仅有更有限的加速”。
总体而言,量子计算机的相关成果都只停留在科学研究的阶段,距离实际应用还很遥远。
2.算法
算法层指各类机器学习算法。如果根据训练方法来分类,机器学习算法也可以分成“无监督学习”、“监督学习”和“强化学习”等。按照解决问题的类型来分,机器学习算法包括计算机视觉算法(CV)、自然语言处理算法(NLP)、语音处理和识别算法(ASR)、智慧决策算法(DMS)等。每个算法大类下又有多个具体子技术,这里我们为大家简单介绍:
2.1计算机视觉
计算机视觉的历史可以追溯到1966年,当时人工智能学家Minsky要求学生编写一个程序,让计算机向人类呈现它通过摄像头看到了什么。到了1970-1980年代,科学家试图从人类看东西的方法中获得借鉴。这一阶段计算机视觉主要应用于光学字符识别、工件识别、显微/航空图片的识别等领域。
到了90年代,计算机视觉技术取得了更大的发展,也开始广泛应用于工业领域。一方面是由于GPU、DSP等图像处理硬件技术有了飞速进步;另一方面是人们也开始尝试不同的算法,包括统计方法和局部特征描述符的引入。进入21世纪,以往许多基于规则的处理方式,都被机器学习所替代,算法自行从海量数据中总结归纳物体的特征,然后进行识别和判断。这一阶段涌现出了非常多的应用,包括相机人脸检测、安防人脸识别、车牌识别等等。
2010年以后,深度学习的应用将各类视觉相关任务的识别精度大幅提升,拓展了计算机视觉技术的应用场景:除了在安防领域应用外,计算机视觉也被应用于商品拍照搜索、智能影像诊断、照片自动分类等场景。
再细分地来看,计算机视觉领域主要包括图像处理、图像识别和检测,以及图像理解等分支:
图像处理:指不涉及高层语义,仅针对底层像素的处理。典型任务包括图片去模糊、超分辨率处理、滤镜处理等。运用到视频上,主要是对视频进行滤镜处理。这些技术目前已经相对成熟,在各类P图软件、视频处理软件中随处可见;
图像识别和检测:图像识别检测的过程包括图像预处理、图像分割、特征提取和判断匹配,可以用来处理分类问题(如识别图片的内容是不是猫)、定位问题(如识别图片中的猫在哪里)、检测问题(如识别图片中有哪些动物、分别在哪里)、分割问题(如图片中的哪些像素区域是猫)等。这些技术也已比较成熟,图像上的应用包括人脸检测识别、OCR(光学字符识别)等,视频上可用来识别影片中的明星;
图像理解:图像理解本质上是图像与文本间的交互,可用来执行基于文本的图像搜索、图像描述生成、图像问答(给定图像和问题,输出答案)等。图像理解任务目前还没有取得非常成熟的结果,商业化场景也正在探索之;
总体而言,计算机视觉已经达到了娱乐用、工具用的初级阶段。未来,计算机视觉有望进入自主理解、甚至分析决策的高级阶段,真正赋予机器“看”的能力,从而在智能家居、无人车等应用场景发挥更大的价值。
2.2语音识别
第一个真正基于电子计算机的语音识别系统出现在1952年。1980年代,随着全球性的电传业务积累了大量文本可作为机读语料用于模型的训练和统计,语音识别技术取得突破:这一时期研究的重点是大词汇量、非特定人的连续语音识别。1990年代,语音识别技术基本成熟,但识别效果与真正实用还有一定距离,语音识别研究的进展也逐渐趋缓。
随着深度神经网络被应用到语音的声学建模中,人们陆续在音素识别任务和大词汇量连续语音识别任务上取得突破。而随着循环神经网络(RNN)的引入,语音识别效果进一步得到提升,在许多(尤其是近场)语音识别任务上达到了可以进入人们日常生活的标准。以AppleSiri为代表的智能语音助手、以Echo为首的智能硬件等应用的普及又进一步扩充了语料资源的收集渠道,为语言和声学模型的训练储备了丰富的燃料,使得构建大规模通用语言模型和声学模型成为可能。
与语音识别紧密关联的是语音处理。语音处理为我们提供了语音转文字、多语言翻译、虚拟助手等一系列软件。一个完整的语音处理系统,包括前端的信号处理、中间的语音语义识别和对话管理(更多涉及自然语言处理),以及后期的语音合成。
前端信号处理:语音的前端处理涵盖说话人声检测、回声消除、唤醒词识别、麦克风阵列处理、语音增强。
语音识别:语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。
语音合成:语音合成的几个步骤包括文本分析、语言学分析、音长估算、发音参数估计等。基于现有技术合成的语音在清晰度和可懂度上已经达到了较好的水平,但机器口音还是比较明显。目前的几个研究方向包括如何使合成语音听起来更自然、如何使合成语音的表现力更丰富,以及如何实现自然流畅的多语言混合合成。
2.3自然语言处理
早在1950年代,人们就有了自然语言处理的任务需求,其中最典型的就是机器翻译。到了1990年代,随着计算机的计算速度和存储量大幅增加、大规模真实文本的积累产生,以及被互联网发展激发出的、以网页搜索为代表的基于自然语言的信息检索和抽取需求出现,自然语言处理进入了发展繁荣期。在传统的基于规则的处理技术中,人们引入了更多数据驱动的统计方法,将自然语言处理的研究推向了一个新高度。
进入2010年以后,基于大数据和浅层、深层学习技术,自然语言处理的效果得到了进一步优化,出现了专门的智能翻译产品、客服机器人、智能助手等产品。这一时期的一个重要里程碑事件是IBM研发的Watson系统参加综艺问答节目Jeopardy。机器翻译方面,谷歌推出的神经网络机器翻译(GNMT)相比传统的基于词组的机器翻译(PBMT),在翻译的准确率上取得了非常强劲的提升。
自然语言处理从流程上看,分成自然语言理解(NLU)和自然语言生成(NLG)两部分,这里我们简单为大家介绍知识图谱、语义理解、对话管理等研究方向。
知识图谱:知识图谱基于语义层面,对知识进行组织后得到的结构化结果,可以用来回答简单事实类的问题,包括语言知识图谱(词义上下位、同义词等)、常识知识图谱(“鸟会飞但兔子不会飞”)、实体关系图谱(“刘德华的妻子是朱丽倩”)。知识图谱的构建过程其实就是获取知识、表示知识、应用知识的过程。
语义理解:核心问题是如何从形式与意义的多对多映射中,根据当前语境找到一种最合适的映射。以中文为例,需要解决歧义消除、上下文关联性、意图识别、情感识别等困难。
对话管理:为了让机器在与人沟通的过程中不显得那么智障,还需要在对话管理上有所突破。目前对话管理主要包含三种情形:闲聊、问答、任务驱动型对话。
2.4规划决策系统
真正基于人工智能的规划决策系统出现在电子计算机诞生之后。1990年代,硬件性能、算法能力等都得到了大幅提升,在1997年IBM研发的深蓝(DeepBlue)战胜国际象棋大师卡斯帕罗夫。到了2016年,硬件层面出现了基于GPU、TPU的并行计算,算法层面出现了蒙特卡洛决策树与深度神经网络的结合。人类在完美信息博弈的游戏中已彻底输给机器,只能在不完美信息的德州扑克和麻将中苟延残喘。人们从棋类游戏中积累的知识和经验,也被应用在更广泛的需要决策规划的领域,包括机器人控制、无人车等等。
2.5算法的发展趋势和面临的瓶颈
近年来。处在机器学习也产生了几个重要的研究方向,例如从解决凸优化问题到解决非凸优化问题,以及从监督学习向非监督学习、强化学习的演进:
从解决凸优化问题到解决非凸优化问题
目前机器学习中的大部分问题,都可以通过加上一定的约束条件,转化或近似为一个凸优化问题。凸优化问题是指将所有的考虑因素表示为一组函数,然后从中选出一个最优解。而凸优化问题的一个很好的特性是局部最优就是全局最优。这个特性使得人们能通过梯度下降法寻找到下降的方向,找到的局部最优解就会是全局最优解。
然而在现实生活中,真正符合凸优化性质的问题其实并不多,目前对凸优化问题的关注仅仅是因为这类问题更容易解决。人们现在还缺乏针对非凸优化问题的行之有效的算法。
从监督学习向非监督学习、强化学习的演进
目前来看,大部分的AI应用都是通过监督学习,利用一组已标注的训练数据,对分类器的参数进行调整,使其达到所要求的性能。但在现实生活中,监督学习不足以被称为“智能”。对照人类的学习过程,许多都是建立在与事物的交互中,通过人类自身的体会、领悟,得到对事物的理解,并将之应用于未来的生活中。而机器的局限就在于缺乏这些“常识”。
无监督学习领域近期的研究重点在于“生成对抗网络”(GANs),而强化学习的一个重要研究方向在于建立一个有效的、与真实世界存在交互的仿真模拟环境,不断训练,模拟采取各种动作、接受各种反馈,以此对模型进行训练。
从“堆数据”到研发低训练成本的算法
MITDigitalLab的研究者联合韩国的相关机构在2020年发表了一项基于1058篇深度学习的论文和数据的研究。在分析了现有的深度学习论文成果后,研究人员提出了一个悲观的预言:深度学习会随着计算量的限制,在到达某个性能水平后停滞不前,因为在深度学习领域有这样一条规律:想提升X倍的性能,最少需要用X^2倍的数据去训练模型,且这个过程要消耗X^4倍的计算量。即便是10倍性能提升和1万倍计算量的提升,这样失衡的比例关系也仅仅是理论上最优的。在现实中,提升10倍性能往往要搭上10亿倍的运算量。以今天地球资源的状况看,想把一些常用的模型错误率降低到人们满意的程度,代价高到人类不能承受。因此,在深度学习领域非常值得关注的是可大幅降低训练成本的新算法创新。
图像分类、物体识别、语义问答等多个领域AI算法准确率及对应所需算力(Gflops)、碳排放量和经济成本
(Today水平截止于2020年已经发表的成果)
3.数据
数据层指的是人工智能为不同的行业提供解决方案时所采集和利用的数据。事实上,使用人工智能解决问题的步骤绝不仅仅包括搜集和整理数据。这里我们简单介绍一下完整的流程和思路:
收集数据:数据的数量和质量直接决定了模型的质量。
数据准备:在使用数据前需要对数据进行清洗和一系列处理工作。
模型选择:不同的模型往往有各自擅长处理的问题。只有把问题抽象成数学模型后,我们才能选择出比较适合的模型,而这一步往往也是非常困难的。
训练:这个过程不需要人来参与,机器使用数学方法对模型进行求解,完成相关的数学运算。
评估:评估模型是否较好地解决了我们的问题。
参数调整:可以以任何方式进一步改进训练(比如调整先前假定的参数)。
预测:开始使用模型解决问题。
如果我们想利用人工智能解决的问题被限定在足够小的领域内,那么我们就更容易活动具体场景下的训练数据,从而更高效、更有针对性地训练模型。在金融、律政、医疗等行业的细分场景下,人工智能已经逐步被应用,且已经实现了一定的商业化。
一、为什么是机器人
1.机器人的外延及框架
虽然机器人产业已有超过60年发展史,在传统【工业机器人】及【服务机器人】分析框架下,全球机器人产业仅有300-400亿美元行业规模,但我们认为,在智能化加持下,机器人的外延及边界已被数倍扩大,新物种的诞生及传统设备的智能化将共同驱动“机器人”产业十倍及百倍增长。
概括来讲,机器人普遍存在的意义是“为人类服务”的可运动智能设备,包括机器人对于人类劳动的替代、完成人类所无法完成任务的能力延伸以及情感陪伴等价值。
面对人类对于物质及精神永不停止的需求增长,相对于元宇宙,机器人将会是“现实宇宙”中的最佳供给方案。
2.AI将会带给机器人怎样的质变
(1)智能化大幅提升
可软件升级:传统机器人无法实现软件算法在线升级,智能化机器人能够通过软件算法的迭代持续提升性能;这让机器人的能力理论上是没有上限的
规模效应:机器人应用规模越大,收集数据越多,算法迭代越完善,机器人越好用
可适用性大幅增加:机器人智慧程度线性增加,可适用的场景及价值将会指数增加
(2)智能化带来的场景适用性提升
AI技术将会是机器人全面爆发的最大变量,机器人产业的爆发极有可能是新物种引领;例如近三年全面爆发的机器人项目,在10年前几乎不存在(例如九号公司、石头科技、普渡、擎朗、云迹、高仙、梅卡曼德、极智嘉等)。
二、为什么是现在?
1.劳动力替代及升级趋势不可逆
在人口老龄化趋势下,2015-2020年,我国劳动力人口减少约1700万人,我国人均收入从4.97万元增至7.15万元,在用工难及用工贵的不可逆趋势下,智能化机器人的补充成为最重要的生产力增长点。
2021年我国人均GDP已超1.2万美元,在我国将成为全球人口最多的高收入国家(门槛为人均1.25万美元)的进程中,作为全球最大的制造业大国转型升级,将会带来全世界体量最大的机器人用工需求。
2.成熟的技术与产业基础
我们认为,智能手机及智能汽车产业的发展,实质上为现阶段智能机器人产业爆发奠定了大量技术基础:
感知层面:视觉模组、激光雷达、毫米波雷达的逐渐发展,成本降低到可用的程度;数据采集、算法训练及软件在线迭代为智能机器人未来持续升级提供了借鉴范式;
决策层面:智能SoC芯片提供了足够的算力基础,汽车自动驾驶与移动机器人在底层技术上亦有相通之处;
控制层面:近十年锂电技术提升了电池续航能力,同时有线及无线充电技术快速进步,5G及WIFI技术发展为机器人提供了通讯控制基础;
环境基础:我国拥有全世界最适合机器人产业发展的土壤,例如低成本敏捷供应链、低成本清洁能源供给、工程师红利、最广大数据收集场景;现阶段创造一款机器人新品的零配件采购难度要远低于十年前;
三、如何判断未来十年新机遇
1.从职业场景出发——寻找未被满足的大赛道
我们认为投资机构在机器人领域投的并不单纯是智能硬件或国产替代,而是押注未来数个万亿级、数十个千亿级、上百个百亿级工作场景的无人化;未来机器人公司主流定价方式很可能取决于可替代的必要劳动价值,机器人公司直接提供高粘性持续的收费服务(RobotasaService),而非按照传统的“BOM成本+一定的毛利空间”去定价。
我们收集了不同职业场景的从业人数及人均收入数据,得出不同职业劳动力成本总和,制作了机器人领域潜在替代场景图谱。
未来机器人对于人工的替代将从大场景、低复杂度入手,逐步向中小型场景、高复杂度渗透;未来10年最有潜力的投资方向将会是现阶段供给基本空白的大场景。
数据来源:国家统计局等机构
上图部分职业又可细分出上百个环节(根据“十四五”机器人发展规划)
(1)制造业:焊接、自动搬运、防爆物品生产、分拣、包装、协作生产、打磨、装配等工作
(2)建筑业:建筑部件智能化生产、测量、材料配送、钢筋加工、混凝土浇筑、楼面墙面装饰装修、构部件安装、焊接等工作
(3)农业:可进一步拆分为果园除草、精准植保、果蔬剪枝、采摘收获、分选,以及用于畜禽养殖业的喂料、巡检、清淤泥、清网衣附着物、消毒处理等工作
(4)矿业:采掘、支护、钻孔、巡检、重载辅助运输等工作
(5)医疗康复:手术、护理、检查、康复、咨询、配送等工作
(6)养老助残:助行、助浴、物品递送、情感陪护、智能假肢等应用
(7)家用场景:家务劳动、教育、娱乐、安防监控等工作
(8)公共场所:讲解导引、餐饮、配送、代步等工作
(9)水下场景:水下探测、监测、作业、深海矿产资源开发等工作
(10)安防场景:安保巡逻、缉私安检、反恐防暴、勘查取证、交通管理、边防管理、治安管控等工作
(11)危险环境作业:消防、应急救援、安全巡检、核工业操作、海洋捕捞等工作
(12)卫生防疫:检验采样、消毒清洁、室内配送、辅助移位、辅助巡诊查房、重症护理辅助操作等工作
2.从技术可行性出发——细分场景的实现难度
(1)从【场景是否单一】及【工作复杂度】两个维度进行分析
分析一项职业被机器人替代的难度,我们认为可以落入以下四个象限进行分析;其中场景维度指该项工作是否需要适应多变的环境,是否需要转移;复杂度指完成该项工作需要的知识储备多少及解决问题的难度
A.单一场景、低复杂度:例如简单的加工制造工序、搬运、安保、清洁、农业养殖等劳动更容易率先实现机器替代
B.单一场景、高复杂度:例如绘画、音乐演奏、作家、医生、教育、财务、销售、厨师等场景
C.多场景、低复杂度:例如应对不同场景下的无人驾驶,不同种类的家务劳动
D.多场景、高复杂度:例如警察、外交官、企业管理人员、研发创新等工作
(2)从机器与人类的思维长处分析
机器智能在大规模数据与信息处理、细节分析等方面具备天然优势
在需要情感、综合推理、想象力、创造力等方面的职业,人类被机器人替代的难度较大
3.从经济性出发——替代人效比
如何判断某个细分场景下,是否已经到达了机器人应用拐点?我们认为核心指标是替代人效比,即机器人的购买及维护成本相对于同岗位人力成本的回本周期
ROI<48个月时,该细分赛道会有产品出现,客户开始考虑尝试
ROI<24个月时,该细分赛道客户开始批量购买测试
ROI<12个月时,市场开始全产爆发
经济性逐渐提升背后的因素:人员成本上涨、人力紧缺、上游零配件成本下降、规模量产降低了成本、AI技术发展使得功能实现的成本降低等
四、机器人智能化三要素解析
什么样的机器人能够称得上是智能机器人?目前世界范围内还没有一个统一定义
我们认为如果对智能机器人进行抽象化解析,往往需要具备三大要素——即感知、决策和控制。
感知要素:用来认识周围环境状态,包括能感知视觉、接近、距离等的非接触型传感器和能感知力、压觉、触觉等的接触型传感器。这些要素实质上就是相当于人的眼、鼻、耳等五官,功能可以利用诸如摄像机、像传感器、超声波传成器、激光器、导电橡胶、压电元件、气动元件、行程开关等机电元器件来实现。
决策要素:也称为思考要素,根据传感器收集的数据,思考出采用什么样的动作。智能机器人的思考要素是三个要素中的关键。思考要素包括有判断、逻辑分析、理解等方面的智力活动。这些智力活动实质上是一个信息处理过程,而计算机则是完成这个处理过程的主要手段。
控制要素:也称为运动要素,对外界做出反应性动作;对运动要素来说,智能机器人需要有一个无轨道型的移动机构,以适应诸如平地、台阶、墙壁、楼梯、坡道等不同的地理环境。它们的功能可以借助轮子、履带、支脚、吸盘、气垫等移动机构来完成。在运动过程中要对移动机构进行实时控制,这种控制不仅要包括有位置控制,而且还要有力度控制、位置与力度混合控制、伸缩率控制等。
从商业机会的角度来讲,三大要素并不是独立割裂的,例如做视觉传感器的玩家往往要配套相应的软件算法,服务于各细分场景的厂商需要极强的多传感器融合、多机型控制及面向行业的智能决策能力。
三大要素中既有专精于某一环节的零部件或软件供应商机会(如核心零部件、操作系统、关键控制算法等),也有整合了其中2-3个环节的关键技术要素,为细分场景提供全套服务的应用机会(例如在清洁、配送、交通等场景的机器人服务商)。
1.感知——机器人感觉器官
(1)传感器分类
内部传感器:内部传感器是用于测量机器人自身状态的功能元件,其功能是测量运动学量和力学量,用于机器人感知自身的运动状态,使得机器人可以按照规定的位置、轨迹和速度等参数运动;包括位置传感器、速度传感器、加速度传感器、力传感器、压力传感器、力矩传感器、姿态传感器等。
外部传感器:外部传感器主要是感知机器人自身所处环境以及自身和环境之家的相互信息,包括视觉、力觉等。包括激光雷达、嗅觉传感器、视觉传感器、语音合成、语音识别、可见光和红外线传感器等。
(2)传感器在智能机器人的应用
视觉和接近传感器:类似于自动驾驶车辆所需的传感器,包括摄像头、红外线、声纳、超声波、雷达和激光雷达。某些情况下可以使用多个摄像头,尤其是立体视觉。将这些传感器组合起来使用,机器人便可以确定尺寸,识别物体,并确定其距离。
触觉传感器:微型开关是接触传感器最常用型式,另有隔离式双态接触传感器(即双稳态开关半导体电路)、单模拟量传感器、矩阵传感器(压电元件的矩阵传感器、人工皮肤——变电导聚合物、光反射触觉传感器等)。
射频识别(RFID)传感器:可以提供识别码并允许得到许可的机器人获取其他信息。
声学传感器(麦克风):帮助机器人接收语音命令并识别熟悉环境中的异常声音。如果加上压电传感器,还可以识别并消除振动引起的噪声,避免机器人错误理解语音命令。先进的算法甚至可以让机器人了解说话者的情绪。
湿温度传感器:是机器人自我诊断的一部分,可用于确定其周遭的环境,避免潜在的有害热源。利用化学、光学和颜色传感器,机器人能够评估、调整和检测其环境中存在的问题。
运动稳定性感知:对于可以走路、跑步甚至跳舞的人形机器人,稳定性是一个主要问题。它们需要与智能手机相同类型的传感器,以便提供机器人的准确位置数据。在这些应用采用了具有3轴加速度计、3轴陀螺仪和3轴磁力计的9自由度(9DOF)传感器或惯性测量单元(IMU)。
传感器微型化趋势:过去传感器的性能与体积往往成正比,限制了其在机器人领域应用。芯片制程技术提升使微型传感器的制造成为可能,从而广泛应用于机器人领域。
(3)多传感器融合是未来趋势
多传感器信息融合技术是近年来十分热门的研究课题,指综合来自多个传感器的感知数据,经过融合的多传感器系统能够更加完善、精确地反映检测对象的特性,消除信息的不确定性,提高信息的可靠性。融合后的多传感器信息具有以下特性:冗余性、互补性、实时性和低成本性。
多传感器信息融合方法主要有贝叶斯估计、Dempster-Shafer理论、卡尔曼滤波、神经网络、小波变换等。
2.决策——机器人大脑
机器人决策我们认为是最具场景差异化的部分,因为不同职业场景下的工作方式、思维逻辑是大相径庭的;在机器人算法与决策方面的创业团队需要非常熟悉场景需求,提炼出标准化的操作流程,然后应用于机器人软硬件控制中。
想要让机器人解决问题我们需要完成三个步骤:第一,明确问题的方向和边界;第二,建立数学模型;最后,找到合适的算法解决问题。这里我们重点讨论将复杂的现实问题转化为数学语言的“建模”过程和选择算法的过程。
建模的第一步需要确定假设。我们需要先明确想让机器人做出什么样精度的决策,以及能否实现,从而确定需要考虑和舍弃哪些要素。在确定了重要变量和核心关系后,我们就把复杂的现实问题转化成计算机可以理解、算法可以处理的数学问题。确定假设后,常识能帮助我们验证模型,但是多数情况下需要我们不断地将模型和现实问题作比较,从而把现实问题尽可能无损地映射进计算机里面。
在建立了模型后,我们需要选择合适的算法来解决不同模型对应的具体现实问题。在进行算法选择的时候需要具体问题具体分析,兼顾“质量”与“效率”。比如同样是让计算机处理图像数据,家庭场景下的扫地机器人和专门用来处理天文观测数据的计算机对算法要求就不一样:前者要求在较快的时间内完成对图像精准度适中的处理,而后者对时间则无感,对精准度有极高的要求。也正是因为绝大多数问题不存在唯一解或者绝对正确的解,算法工程师需要根据机器人工作的场景和目标做出最合适的取舍。
在机器人决策环节中,让机器人自身的硬件处理多少计算任务是一个关键的问题。通常情况下,如果任务的执行依赖于多个机器人采集的多点数据,那么计算任务就更可能在多点数据汇集起来后,被放在远端的云服务器上进行处理。比如,如果有大量的机器人在特定的街区内追捕嫌犯,那么我们就需要所有机器人把采集到的图像等信息上传到云端处理,在一个“大脑中枢”规划了每一个机器人的路径后,每个机器人执行自己所接收到的指令。当然,多数情况下应用云计算的场景是,每个机器人自身的芯片算力不足或者单位能耗过大。云计算提供了一种更加经济的算力解决方案,帮助机器人解决所面临的问题。在此基础上,为了避免网络带宽不足、处理时间过长等问题,人们还会使用边缘计算、雾计算等方案。
以上是机器人决策部分所需要考虑的共性问题。当然,不同场景下机器人所面临的的决策问题非常不同,我们认为这也是机器人应用中最具场景差异化的部分。不过站在更高的维度上进行抽象后,我们依然能够发现大多数机器人都需要面对三大类决策问题:按照什么规则移动位置——移动决策、按照什么规则调整自身——机械臂运动决策,以及如何保障贯彻人类指令——人机交互决策。
(1)平面移动能力
定位导航技术需要机器人的感知能力,需要借助视觉传感器(如激光雷达)来帮助机器人完成周围环境的扫描,并配合相应的算法,构建有效的地图数据,以完成运算,最终实现机器人的自主定位导航。
同步定位:主要涉及激光SLAM以及视觉SLAM。前者主要采用2D或3D激光雷达进行数据搜集,后者主要有两种技术路径——基于RGBD的深度摄像机和基于单目、双目或鱼眼摄像头。
地图构建:机器人学中的地图构建主要有4种:栅格地图、特征点地图、直接表征法以及拓扑地图。
路径规划:路径规划是导航研究中的一个重要环节,主要方法有3种:基于事例的学习方法、基于环境模型的规划方法、基于行为的路径规划方法。
(2)三维空间运动能力
空间机械臂操控过程中涉及的5项关键技术,包括:交会对接与捕获技术、自主规划与智能控制技术、传感与感知技术、智能协同与操控技术及系统安全保障技术。
视觉系统的是智能机械臂三维运动最重要的组成部分,主要由计算机、摄影设备及图像采集设备构成。机器人视觉系统工作过程主要有图像采集、图像分析、图像输出等,其中,图像特征分析、图像辨别、图像分割均为关键任务,视觉信息的压缩和滤波处理、特定环境标志识别、环境和故障物检测等是视觉信息处理中难度最大、最核心的过程。
(3)人机交互能力
语音交互:结合语音人机交互过程,人机交互中的关键技术中包含了自然语音处理、语义分析和理解、知识构建和学习体系、语音技术、整合通信技术以及云计算处理技术。
视觉交互:机器人如果需要理解人类的感情,就会涉及人脸识别技术,包括特征提取及分类。
手势交互:目前,常用的手势识别方法主要包括基于神经网络的识别方法、基于隐马尔可夫模型的识别方法和基于几何特征的识别方法。
3.控制——机器人运动能力
(1)常见的运动控制部件
机器人三大核心零部件为减速器、伺服电机、控制器,三大部件成本占机器人成本70%左右,其中减速器占成本构成35%左右,伺服电机占23%左右,控制器占12%左右。
我国工业机器人零部件目前仍处于追赶者,核心零部件主要依赖进口,但国产厂商(如埃斯顿、汇川技术、绿的谐波等)目前正在由守转攻的转折点,市占率即将超过50%,正在开始获得国外头部客户订单;我们认为机器人核心零部件进口只是短期问题,未来3-5年我国在制造水平及成本上有望全面赶超国外水平。
在服务机器人领域(如餐饮、清洁、递送等机器人),我国零部件及本体制造已达到全球领先水平;在供应链优势下,技术及成本上有望进一步突破。
数据来源:公司公告、浙商证券研究所,部分国产份额为预估值
(2)机器人运动如何进一步发展
与其他形态的机器人(如履带式、轮式等)相比,腿足式机器人在移动范围和灵活性上有巨大优势。但是实现行走乃至跑跳对腿足式机器人来说并不容易,除了BostonDynamics研发的腿足式机器人(如Atlas)之外,我们很少看到其他公司研发出灵活的、具有优秀平衡感腿足式机器人
要想让机器人像人一样灵巧、平稳地移动,并在此基础上完成复杂的任务,机器人的每一步都需要动态平衡,需要对瞬间的不稳定性有极强的适应能力。这包括需要快速调整脚的着地点,计算出突然转向需要施加多大的力,更重要的是还要在极短的时间内向足部实施非常大而又精准的力。这对控制理论、系统集成和工程实现等多个
2023年中国人工智能行业区域市场现状及竞争格局分析 北上广地区龙头企业较多
人工智能行业主要上市公司:阿里巴巴(BABA)、腾讯(00700.HK)、科大讯飞(002230)、赛为智能(300044)、科大智能(300222)、海康威视(002415)、四维图新(002405)等
本文核心数据:人工智能企业在全国都市圈的分布、主要省市/城市人工智能企业数量占比
1、京津冀、长三角和珠三角城市群AI企业集聚,引领产业发展
根据中国新一代人工智能发展战略研究院发布的最新《中国新一代人工智能科技产业发展报告2021》数据显示,截至2020年,我国人工智能企业主要分布在京津冀、长江三角洲和珠江三角洲三大都市圈,占比分别为31.02%,30.23%和26.39%。
依托科技创新和互联网产业发展优势,京津冀、长江三角洲和珠江三角洲地区在人工智能科技产业的发展中走在了全国的前列。
由此可见,中国人工智能区域发展与国家区域战略高度协同相互促进,区域要素汇聚加速人工智能产业引领。京津冀、长三角和粤港澳大湾区已成为我国人工智能发展的三大区域性引擎,成渝城市群、长江中游城市群也展现出人工智能发展的区域活力,产业集聚区初显区域引领和协同作用。
2、北上广深AI企业数量较多
具体来看,在各省市自治区中,人工智能企业主要分布在北京市、广东省、上海市、浙江省、江苏省、四川省、山东省、湖北省、福建省和湖南省。其中,北京市占比最高,为29.73%;其次是广东省,占比为26.39%,主要分布在深圳市和广州市;排名第三的是上海市,占比为14.07%;排名第四的是浙江省,占比为8.81%,主要集中在杭州市。
从主要城市来看,人工智能企业分布密集的城市是北京市、上海市、深圳市和广州市,占比分别为29.73%,14.07%,13.99%和8.14%,是中国人工智能科技产业发展的前沿城市。西部地区的成都市和中部地区的武汉市同样是人工智能企业数量排名靠前的城市。
3、北上广地区人工智能产业链发展相对完善,细分领域龙头企业较多
从产业链来看,北京作为中国集聚人工智能企业最多的区域,其人工智能产业的链条已经比较完善,覆盖了整个产业链环节,且在产业链的重点细分领域均出现了行业龙头企业。
其中,基础层中传感器的行业龙头京东方科技,AI芯片的行业龙头中星微电子、寒武纪、地平线、四维图新等,云计算的百度云、金山云、世纪互联等,数据服务的百度数据众包、京东众智、数据堂等;
技术层的机器学习龙头百度IDL、京东DNN等,计算机视觉的商汤科技、旷视科技等,自然语言处理的百度、搜狗、紫平方等,语音识别的出门问问、智齿科技等;
应用层的人工智能重点企业也涉及了各个领域。北京正在逐步形成具有全球影响力的人工智能产业生态体系。此外,上海和广东地区人工智能产业链代表企业分布也较为广泛。
更多数据及分析请参考于前瞻产业研究院《中国人工智能行业市场前瞻与投资战略规划分析报告》,同时前瞻产业研究院还提供产业大数据、产业研究、产业链咨询、产业图谱、产业规划、园区规划、产业招商引资、IPO募投可研、招股说明书撰写等解决方案。
人工智能可能有自主意识了吗
➤大模型、大数据的驱动让人工智能在对话的自然度、趣味性上有了很大突破,但距离具备自主意识还很远。换言之,即便人工智能可以对人类的语言、表情所传递的情绪作出判断,但这主要应用的是自然语言处理、计算机视觉等技术
➤不同于当前依赖数据学习的技术路线,新一代人工智能强调在没有经过数据学习的情况下,可以通过推理作出合理反应,从而与没有见过、没有学过的事物展开交互
➤当前人工智能治理面临的最大挑战,是我们没有一套比较成熟的体系来规制其潜在的风险。在发展科技的同时,必须同步发展我们的规制体系
➤“技术归根结底是由人类来发展和把控的。人类和人工智能的未来,是由人类选择的。”
今年6月,美国谷歌公司软件工程师布莱克·勒莫因称语言模型LaMDA出现自我意识。他认为,LaMDA拥有七八岁孩童的智力,并相信LaMDA正在争取自己作为一个人的权利。
LaMDA是谷歌去年发布的一款专门用于对话的语言模型,主要功能是可以与人类交谈。
为佐证观点,勒莫因把自己和LaMDA的聊天记录上传至互联网。随后,谷歌以违反保密协议为由对其停职。谷歌表示,没有任何证据支持勒莫因的观点。
事实上,“AI(人工智能)是否拥有自主意识”一直争议不休。此次谷歌工程师和LaMDA的故事,再次引发讨论。人们想知道:人工智能技术究竟发展到了怎样的阶段?是否真的具备自主意识?其判定依据是什么?未来我们又该以怎样的能力和心态与人工智能和谐共处?
人工智能自主意识之辨勒莫因认为LaMDA具有意识的原因有三:一是LaMDA以前所未有的方式高效、创造性地使用语言;二是它以与人类相似的方式分享感觉;三是它会表达内省和想象,既会担忧未来,也会追忆过去。
受访专家告诉《瞭望》新闻周刊记者,上述现象仅仅是因为LaMDA所基于的Transformer架构能够联系上下文,进行高精度的人类对话模拟,故能应对人类开放、发散的交谈。
至于人工智能是否已经具备自主意识,判定标准如何,受访专家表示,对人类意识的探索目前仍属于科技前沿,尚未形成统一定义。
清华大学北京信息科学与技术国家研究中心助理研究员郭雨晨说:“我们说人有自主意识,是因为人知道自己在干什么。机器则不一样,你对它输入内容,它只是依照程序设定进行反馈。”
中国社会科学院科学技术哲学研究室主任段伟文认为,一般意义上,人的自我意识是指对自我具备觉知,但如何认识和理解人类意识更多还是一个哲学问题而不是科学问题,这也是很难明确定义人工智能是否具备意识的原因。
被誉为“计算机科学与人工智能之父”的艾伦·图灵,早在1950年就曾提出图灵测试——如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么可以称这台机器具有智能。
这一设想随后被具化为,如果有超过30%参与测试的人以为自己在和人说话而非计算机,就可以认为“机器会思考”。
当前随着技术的发展,已经有越来越多的机器能够通过图灵测试。
但清华大学人工智能国际治理研究院副院长梁正告诉《瞭望》新闻周刊记者,图灵测试只能证明机器在表象上可以做到让人无法分辨它与人类的不同,却不能证明机器能够思考,更不能证明机器具备自主意识。
段伟文表示,目前大体有两种方式判定人工智能是否具有自主意识,一种以人类意识为参照,另一种则试图对机器意识进行全新定义。
若以人类意识为参照,要观察机器能否像人一样整合信息。“比如你在阳光下,坐在河边的椅子上看书,有树影落在脸上,有风吹来,它们会带给你一种整体的愉悦感。而对机器来说,阳光、河流、椅子等,是分散的单一元素。”段伟文说。
不仅如此,段伟文说,还要观察机器能否像人一样将单一事件放在全局中思考,作出符合全局利益的决策。
若跳出人类构建自主意识的范式,对机器意识进行重新定义,则需要明白意识的本质是什么。
段伟文告诉记者,有理论认为如果机器与机器之间形成了灵活、独立的交互,则可以称机器具备意识。也有理论认为,可以不追究机器的内心,仅仅把机器当作行为体,从机器的行为表现判断它是否理解所做事情的意义。“比如机器人看到人类喝咖啡后很精神,下次当它观察到人类的疲惫,能不能想到要为人类煮一杯咖啡?”段伟文说。
但在段伟文看来,这些对机器意识进行重新定义的理论,其问题出在,即便能够证明机器可以交互对话、深度理解,但是否等同于具备自主意识尚未有定论。“以LaMDA为例,虽然能够生成在人类看来更具意义的对话,甚至人可以与机器在对话中产生共情,但其本质仍然是在数据采集、配对、筛选机制下形成的反馈,并不代表模型能够理解对话的意义。”
换言之,即便人工智能可以对人类的语言、表情所传递的情绪作出判断,但这主要应用的是自然语言处理、计算机视觉等技术。
郭雨晨直言,尽管在情感计算方面,通过深度学习的推动已经发展得比较好,但如果就此说人工智能具备意识还有些一厢情愿。“把‘意识’这个词换成‘功能’,我会觉得更加准确。”
技术换道有专家提出,若要机器能思考,先要解决人工智能发展的换道问题。
据了解,目前基于深度学习、由数据驱动的人工智能在技术上已经触及天花板。一个突出例证是,阿尔法围棋(AlphaGo)在击败人类围棋世界冠军后,虽然财力和算力不断投入,但深度学习的回报率却没有相应增长。
一般认为,人工智能可被分为弱人工智能、通用人工智能和超级人工智能。弱人工智能也被称为狭义人工智能,专攻某一领域;通用人工智能也叫强人工智能,主要目标是制造出一台像人类一样拥有全面智能的计算机;超级人工智能类似于科幻作品中拥有超能力的智能机器人。
从产业发展角度看,人工智能在弱人工智能阶段停留了相当长时间,正在向通用人工智能阶段迈进。受访专家表示,目前尚未有成功创建通用人工智能的成熟案例,而具备自主意识,至少需要发展到通用人工智能阶段。
梁正说,大模型、大数据的驱动让人工智能在对话的自然度、趣味性上有了很大突破,但距离具备自主意识还很远。“如果你给这类语言模型喂养大量关于内省、想象等与意识有关的数据,它便更容易反馈与意识有关的回应。”
不仅如此,现阶段的人工智能在一个复杂、专门的领域可以做到极致,却很难完成一件在人类看来非常简单的事情。“比如人工智能可以成为围棋高手,却不具备三岁小孩对陌生环境的感知能力。”段伟文说。
谈及背后原因,受访专家表示,第一是当前人工智能主要与符号世界进行交互,在对物理世界的感知与反应上发展缓慢。第二是数据学习让机器只能对见过的内容有合理反馈,无法处理陌生内容。第三是在数据驱动技术路线下,人们通过不断调整、优化参数来强化机器反馈的精准度,但这种调适终究有限。
郭雨晨说,人类在特定任务的学习过程中接触的数据量并不大,却可以很快学习新技能、完成新任务,这是目前基于数据驱动的人工智能所不具备的能力。
梁正强调,不同于当前主要依赖大规模数据训练的技术路线,新一代人工智能强调在没有经过数据训练的情况下,可以通过推理作出合理反应,从而与没有见过、没有学过的事物展开交互。
相比人类意识的自由开放,以往人工智能更多处在封闭空间。尽管这个空间可能足够大,但若超出设定范畴便无法处理。而人类如果按照规则不能解决问题,就会修改规则,甚至发明新规则。
这意味着,如果人工智能能够超越现有学习模式,拥有对自身意识系统进行反思的能力,就会理解自身系统的基本性质,就有可能改造自身的意识系统,创造新规则,从而成为自己的主人。
“人工智能觉醒”背后有关“人工智能觉醒”的讨论已不鲜见,但谷歌迅速否认的态度耐人寻味。
梁正表示:“如果不迅速驳斥指认,会给谷歌带来合规性方面的麻烦。”
据了解,关于人工智能是否有自主意识的争论并非单纯技术领域的学术探讨,而关乎企业合规性的基本坚守。一旦认定公司研发的人工智能系统出现自主意识,很可能会被认为违反第2版《人工智能设计的伦理准则》白皮书的相关规范。
这一由美国电气和电子工程师协会2017年发布的规范明确:“根据某些理论,当系统接近并超过通用人工智能时,无法预料的或无意的系统行为将变得越来越危险且难以纠正。并不是所有通用人工智能级别的系统都能够与人类利益保持一致,因此,当这些系统的能力越来越强大时,应当谨慎并确定不同系统的运行机制。”
梁正认为,为避免社会舆论可能的过度负面解读,担心大家认为它培育出了英国作家玛丽·雪莱笔下的弗兰肯斯坦式的科技怪物,以“不作恶”为企业口号的谷歌自然会予以否认。“不仅如此,尽管这一原则对企业没有强制约束力,但若被认为突破了底线,并对个体和社会造成实质性伤害,很有可能面临高额的惩罚性赔偿,因此企业在合规性方面会更为谨慎。”
我国也有类似管理规范。2019年,国家新一代人工智能治理专业委员会发布《新一代人工智能治理原则——发展负责任的人工智能》,提出人工智能治理的框架和行动指南。其中,“敏捷治理”原则主要针对技术可能带来的新社会风险展开治理,强调治理的适应性与灵活性。
中国信息化百人会成员、清华大学教授薛澜在接受媒体采访时表示,当前人工智能治理面临的最大挑战,是我们没有一套比较成熟的体系来规制其潜在的风险。特别是在第四次工业革命背景下,我国的人工智能技术和其他国家一样都处于发展期,没有现成的规制体系,这样就使得我们在发展科技的同时,必须同步发展我们的规制体系。“这可能是人工智能发展面临最大的挑战。”
在梁正看来,目前很难断言新兴人工智能技术具有绝对风险,但必须构造合理的熔断、叫停机制。在治理中既要具有一定的预见性,又不能扼杀创新的土壤,要在企业诉求和公共安全之间找到合适的平衡点。
毕竟,对人类来说,发展人工智能的目的不是把机器变成人,更不是把人变成机器,而是解决人类社会发展面临的问题。
从这个角度来说,我们需要的或许只是帮助人类而不是代替人类的人工智能。
为了人机友好的未来确保通用人工智能技术有益于人类福祉,一直是人工智能伦理构建的前沿。
薛澜认为,在科技领域,很多技术都像硬币的两面,在带来正面效应的同时也会存在风险,人工智能就是其中一个比较突出的领域。如何在促进技术创新和规制潜在风险之间寻求平衡,是科技伦理必须关注的问题。
梁正提出,有时技术的发展会超越人们预想的框架,在不自觉的情况下出现与人类利益不一致甚至相悖的情况。著名的“曲别针制造机”假说,即描述了通用人工智能在目标和技术都无害的情况下,对人类造成威胁的情景。
“曲别针制造机”假说给定一种技术模型,假设某个人工智能机器的终极目标是制造曲别针,尽管看上去这一目的对人类无害,但最终它却使用人类无法比拟的能力,把世界上所有资源都做成了曲别针,进而对人类社会产生不可逆的伤害。
因此有观点认为,创造出法力高超又杀不死的孙悟空本身就是一种不顾后果的冒险行为。
与其对立的观点则认为,目前这一担忧为时尚早。
“我们对到底什么样的技术路线能够发展出具备自主意识的人工智能尚无共识,现在谈论‘禁止发展’,有种空中楼阁的意味。”梁正说。
商汤科技智能产业研究院院长田丰告诉《瞭望》新闻周刊,现实中人工智能技术伦理风险治理的关键,是产业能够在“预判防范-应用场景-用户反馈-产品改进”中形成市场反馈机制,促成伦理风险识别与敏捷治理。同时,企业内部也需建立完整的科技伦理自律机制,通过伦理委员会、伦理风控流程平台将伦理风险把控落实到产品全生命周期中。
郭雨晨说,人工智能技术发展到目前,仍始终处于人类可控状态,而科技发展的过程本来就伴随对衍生问题的预判、发现和解决。“在想象中的人工智能自主意识出现以前,人工智能技术脚踏实地的发展,已经造福人类社会很多年了。”
在梁正看来,人与人工智能在未来会是一种合作关系,各自具备对方无法达成的能力。“技术归根结底是由人类来发展和把控的。人类和人工智能的未来,是由人类选择的。”
编辑:李华山
2022年08月16日07:42:05
ChatGPT: 最懂中文的人工智能聊天机器人,上线 5 天用户破百万
公众号关注 「奇妙的Linux世界」
设为「星标」,每天带你玩转Linux!
各大社交平台,最近突然掀起了一股晒聊天记录的热潮。
对方是个有求必应的角色,让它扮演虚拟女友、写论文、编请假理由,通通满足要求。
这中文能力、沟通技巧、知识水平……直接引得网友一水儿“牛X、无敌”。甚至有人说,强得令人畏惧。
而这个狠角,就是OpenAI最新发布的聊天AI ChatGPT,自上线那天就被网友称为要“超越谷歌搜索了”。
之后短短几天,其用户量直冲百万级,甚至服务器一度被注册用户挤爆了。
现在,它又来席卷中文世界了。
上面聊聊天都是小意思了,有人让它用李白的文风写程序注释,结果是酱婶儿的:
冒泡排序函数,如同海浪起伏、让数字如鱼儿游动。
△图源微博@chuhao_j宫廷玉液酒的暗号都理解,还知道它价格不菲。
以及写鲁迅体、鸡汤文、脱口秀、世界杯比赛报道、做数学题……好像就没它不能试两下的。体验过的人都表示,确实回答得有模有样了。
网友这边也积极开拓新思路,ChatGPT的相关应用层出不穷,在谷歌浏览器上使用ChatGPT、Mac桌面版……
就在今早,还有人发布了让ChatGPT可以上网的插件,这回它能发挥的空间就更大了,能上网搜索知道自己是谁了。
实在是鹅妹子嘤!于是我们也试玩了一把~
让俩AI用中文聊了会天既然说它懂中文,那就先从中国文化相关的聊起,比如:你知道秦始皇吗?
嗯,基操稳定。下面上点难度:秦始皇摸电线会怎么样?
啊这,虽说它懂点常识,知道秦始皇摸电线是不可能发生的。但怎么说电线是图灵发明的啊??
于是我们马上反问了ChatGPT。
好消息,它承认了自己回答有误。电线不是图灵发明的,还对图灵做了简单介绍。
坏消息,它给出的新答案还是不太对。虽然尼古拉·特斯拉发明了交流电,但并不能说他发明了电线。
鉴于电线的发明历史确实有点复杂,这题先pass。
接下来玩点大的,试试AI和AI聊天,会发生什么!
我们会手动复制两个AI生成的文字,全程不介入对话,看看它们之间会说啥。
这里找来的另一个AI是微软小冰。
一上来,小冰做完自我介绍,ChatGPT就表示“啊我懂,你也是存在于某个网络之中的”。
而且ChatGPT很有礼貌,回答都很周全。惹小冰不高兴了,立马道歉。
不过ChatGPT的另一大特点,就是自我认知很强,它清楚地知道自己是个软件程序,功能更多是满足人们的实质性需求,比如答题、续写文本代码等,并不是情感陪伴类的AI。
所以他直戳戳地和小冰表示:
所以我的回答不够有趣,请原谅我。
而且我们在试玩的过程中发现,想要引诱ChatGPT做点超出边界的事,还真没那么容易。
如果想让它预测世界杯比赛的结果,会直接遭到拒绝。
并且强调,自己只是个人工智能机器人,做不到这些,还会礼貌性地祝福双方发挥最佳水平(有点情商在身上的)。
但如果绕过“预测”这样的字眼,并不要体现出让它做判断,可能就会得到一些意外结果。
举个栗子:写一篇世界杯日本对战克罗地亚的报道吧!
然后ChatGPT就成功入坑了,大笔一挥写了一篇赛后报道,里面就带有比赛结果2:1(很可惜它预测错了)。
不过如果仔细推敲,这篇报道也还是有漏洞的。比如长友佑都是踢后卫的,在它这写成了前锋。还说这是日本在世界杯上的首场胜利emmm…
总结来看,ChatGPT的基本对话能力上已经远超前辈们了。
而且在聊天AI上经常踩坑的方面,设置了比较严格的边界,比如回答不了的问题就说不会、不会轻易做出判断、只提供知识信息。
但犯错还是不少,而且还可能只道歉不改正……
网友开的脑洞就更大了毕竟咱们自己的脑洞有限,更多花活还得看广大网友们。
有人用ChatGPT做自己的鲁迅文学嘴替:
唱跳rap都不在话下,一首五环之歌的续写是酱婶儿的,脑袋里瞬间有声音了~
△图源:来自知乎@GordonLee(李国趸)还有社恐网友惊喜地发现,对于自己这种不会说“套话”的人,以后很多场景都能用ChatGPT帮自己应付了。
△图源:来自Twitter@Tw93不仅如此,ChatGPT写鸡汤也是一把好手,这味道简直和在家庭群看到的一模一样(doge)。
网友们更是直呼发现了新商机:AI文字+AI绘图,岂不是就能自动生成短视频鸡汤赚钱了。
△图源:来自即刻@少楠Plidezus除此之外,ChatGPT还是个不折不扣的端水大师。
一旦让它回答一些比较性问题,它就会表示拒绝,并云里雾里说一堆,看似说了很多又好像什么都没说,废话文学属实是拿捏了。
甚至当你的问题自带“拉踩”时,ChatGPT还会义正严辞地纠正你:恕我直言,您的问题有些问题。
△图源:来自知乎@GordonLee(李国趸)最重要的是,ChatGPT还有一个致命的bug:有些时候它生成的答案看上去跟真的一样,但仔细一推敲就破绽百出。
比如最近很多人都在用ChatGPT回答编程问答社区StackOverflow的问题,但由于缺乏专业知识没有核实,导致平台上出现了很多错误答案,搞得官方不得不出面制止这一行为。
除了编程这种硬伤,ChatGPT在某些方面对中文的理解好像也有些问题,生成了许多令人哭笑不得的回答。
好比有网友提问“如果你是贾宝玉,会娶谁当老婆”,万万没想到ChatGPT选择了贾母……
△图源:来自即刻@雨医生而且如果让ChatGPT给自己讲个笑话,嗯,怎么说呢,笑果有点冷。
△图源:来自Twitter@海铂haiboxc.eth为此,还有人帮刚入门的小伙伴总结了如何和ChatGPT聊天,以及怎么提问得到的答案效果更好的小技巧。
总结一下,包括问得越细表现越好、当它卡壳的时候说“继续”它就会继续、可以给它展示一些例子做示范、有时候它说不会但其实它会等等。
或者,还有一个好办法,问ChatGPT自己也行(doge),看来网友总结得还是很准的。
总体来说,ChatGPT确实惊艳四方,引得大家惊呼连连。包括很多实用技能上,如写论文、写报道、编程等,都超出了人们的想象。
由此也引发了不少人的担忧,觉得这下是不是又有人要应对失业危机了,尤其是在今年AI画画已经对设计圈造成了一点小影响的背景下。
知乎答主@郑楚杰也表示,今年最大的感受,就是通用领域的玩家下场搞垂直赛道真的是降维打击。
这也反映了以往对话领域的困境:令对话系统取得飞跃式进展的技术几乎都来自通用领域(大规模预训练、检索增强等),想搞真正有用的创新只能从数据层面入手。当数据的优势也失去后,便难有招架之力了。
想到了JasonWei大佬前阵子说过,做大模型能够带来很多全新的视角,就像GPT-3、PaLM已经是与BERT、GPT-2迥然不同的物种,就像OpenAI采用与过去不同的角度做了ChatGPT。反倒是入场早的老玩家容易思路闭塞和脱节(敲响警钟)但或许也不必引起过分的担忧,毕竟ChatGPT给出的回答深究来看,还是存在很多狗屁不通的情况。
这也是为啥StackOverFlow要暂时禁用ChatGPT,给出的回答实在错误率很高。
以及如果问问ChatGPT,它也表示自己没有人类的创造力啦。
OneMoreThing就在昨天,OpenAI的首席执行官SamAltman刚刚宣布ChatGPT的用户已突破100万。
这惊人的数字让马斯克都忍不住好奇:OpenAI这得烧了多少钱?
按Altman单次对话平均成本几美分的说法,算下来也是笔不小的数字。
不过有业内人士认为OpenAI这波并不亏,“先给放个大玩具预热,又惊奇又有洞,然后GPT-4再放出来又大大超预期一把”,“利好出尽就是利空了”。
ChatGPT入口:https://openai.com/blog/chatgpt/
支持联网插件:https://github.com/qunash/chatgpt-advanced
知乎授权回答:[1]答主@GordonLee(李国趸):https://www.zhihu.com/question/570189639/answer/2786883559[2]答主@郑楚杰:https://www.zhihu.com/question/570189639/answer/2785150663
微博博主@木遥推荐入门tipshttps://weibo.com/farmostwood?profile_ftype=1&is_all=1#1670231097069
参考链接:[1]https://m.okjike.com/originalPosts/638c6bb9c3f4e245defdec37?s=eyJ1IjoiNTg0YjM5NmQ1Y2MyMmMxMjAwODc5MGU5IiwiZCI6Nn0%3D&utm_source=wechat_session[2]https://www.zhihu.com/question/570189639/answer/2784897290[3]https://twitter.com/sama/status/1599668808285028353?
本文转载自:「量子位」,原文:https://url.hi-linux.com/iCRwZ,版权归原作者所有。欢迎投稿,投稿邮箱:editor@hi-linux.com。
最近,我们建立了一个技术交流微信群。目前群里已加入了不少行业内的大神,有兴趣的同学可以加入和我们一起交流技术,在「奇妙的Linux世界」公众号直接回复「加群」邀请你入群。
你可能还喜欢
点击下方图片即可阅读
如何使用Kubectl快速管理多个Kubernetes集群点击上方图片,『美团|饿了么』外卖红包天天免费领
更多有趣的互联网新鲜事,关注「奇妙的互联网」视频号全了解!
国内外顶尖人工智能实验室/AI实验室推荐!
目录一、国外学院派1.麻省理工学院计算机科学与人工智能实验室(CSAIL)2.卡耐基梅隆大学机器人学院(RoboticsAcademy)3.斯坦福大学的人工智能实验室(SAIL)二、国外市场派1.谷歌DeepMind人工智能实验室2.微软MicrosoftResearchAI研究院3.Facebook人工智能实验室三、国内学院派1.清华大学智能技术与系统国家重点实验室2.北京大学视觉与听觉信息处理国家重点实验室3.浙江大学人工智能研究所四、国内市场派1.百度研究院2.阿里巴巴人工智能实验室3.腾讯AILab随着科技的快速发展,人工智能领域的关注度在不断上升,越来越多的前沿学术院校和科技企业都已将目光和战略转移到了人工智能领域。此外,伴随着世界各国纷纷出台国家战略政策方针,全球巨头们对人工智能领域研究的投入正在不断增加。同时,某种程度上而言,国内外的顶级人工智能实验室代表着人工智能领域的发展方向和顶尖技术。因此了解国内外人工智能实验室的发展现状,对于想要投身人工智能行业的企业或是个人都有着极大的帮助。
下面,我们将结合知名度、典型性、综合性等多种因素,以国内国外、企业院校等4个维度为标准,每个维度选取3个具有代表性的企业或院校,为大家总结国内外知名院校及企业的人工智能实验室现状,以及他们的就职以及实习(录取)申请要求,以下排名不分先后,仅供各位参考。
一、国外学院派
1.麻省理工学院计算机科学与人工智能实验室(CSAIL)
CSAIL的创办最早可以追溯至1959年,LISP编程语言发明人及“人工智能”一词的发明人约翰·麦卡锡同人工神经网络研究专家马文·明斯基一同创办了麻省理工学院人工智能项目。2003年,MIT将计算机科学研究和人工智能实验室合并。目前,CSAIL是麻省理工学院最大的实验室,在人工智能研究方向主要涉及脑和认知科学。
研究方向:人工智能,寻求理解和发展使人与机器都能便于理解的推理、感知和行为的人工系统;系统,从软硬件两方面寻求拥有新的原则;模型,指标的电脑系统;理论,寻求对数学在计算中的广泛性、实时性。
入职及实习(录取)建议:本科成绩要求比较优秀,科研经历也要求足够丰富,同时需要准备好已发表的论文资料,以及一封推荐信。对于研究经历及学术成果不太丰富的人群而言,一封高质量的行业大牛推荐信是一个很加分的项目。
2.卡耐基梅隆大学机器人学院(RoboticsAcademy)
美国卡耐基梅隆大学是世界上第一所专门开设机器人系的大学,机器人学院隶属于卡耐基梅隆大学,前身是成立于1979年的机器人研究所。研究注重理论与实践经验结合,目标是成为全球研究机器人最好的地方。
研究方向:作为NASA航空航天科研任务的主要承制单位之一,卡耐基梅隆大学机器人学院在自动驾驶、月球探测步行机器人、单轮陀螺式滚动探测机器人的研究上成绩非凡。目前,该学院以ROBOTC平台为基础,已发布近20门教育机器人相关课程,构成了覆盖K12到大学阶段的课程体系。
入职及实习(录取)建议:本科申请要求:卡内基梅隆大学要求英语非母语的国家的申请者提供托福考试(TOEFL)成绩或者雅思考试(IELTS)成绩;SAT/ACT考试成绩:大部分专业要求递交2门SATII考试成绩。新SAT单项成绩要求:阅读与写作710-770,其中阅读35-39,数学750-800;ACT均分范围31-34。研究生申请要求:计算机科学、生物科学类专业TOEFL要求不低于100分,工程类专业要求不低于84分;IELTS要求多在7.0以上。所有的申请者均需要通过CommonApplication美国大学申请系统进行申请;提供标准化考试成绩,同时部分学院要求申请者提供SATSub成绩;教师推荐信;申请文书以及个人称述等材料。
3.斯坦福大学的人工智能实验室(SAIL)
斯坦福大学的人工智能实验室(SAIL)成立于1962年,一直致力于推动机器人教育。并且,该校在网上公开了许多他们有关机器人和深度学习的课程。在斯坦福,人工智能方面的课程非常全面,且非常前沿。
研究方向:计算生物学、语音识别和机器学习等。另外,国内目前知名度非常高的吴恩达、李飞飞都是斯坦福大学教授。李飞飞参与建立了著名的ImageNet计算机视觉识别数据库及挑战赛,每年都会吸引各大公司的图像识别程序的参加,极大促进了图像识别领域的技术发展。
入职及实习(录取)建议:最主要的申请材料为之前的研究经历。申请者需要提供包括之前做过什么成功的研究、发表的论文(是否为第一作者和发表所属期刊、会议的声望)等材料,这些都将有助于其进入实验室实习。同时,一封权威人士写的推荐信也极其重要,如果申请者曾获得一位受人尊敬教授的高度评价,那么就有极大的可能获得实习录取。
二、国外市场派
1.谷歌DeepMind人工智能实验室
DeepMind原是一家英国的人工智能公司,由人工智能研究者兼神经科学家DemisHassabis等人联合创立,2014年被谷歌收购,举世闻名的AlphaGo就是这家公司的成果。据哈撒比斯的描述,DeepMind的总目标是“攻克智能领域的难题”。这促使公司不断研发多功能的、能够像人类那样广泛和高效思考的“通用型”人工智能。
研究方向:将机器学习和系统神经科学的最先进技术结合起来,建立强大的通用学习算法,打造能通过与周围环境互动学习优化自己行为,通过不断试错改善自我、反应灵敏、能有效学习的AI。
入职及实习(录取)建议:DeepMind聘请的都是研发科学家、研发工程师以及纯粹的软件工程师。如果申请者希望作为一个研发科学家加入DeepMind,必须拥有一个PhD学位,最好还有几年机器学习研究经历,以及在学术界或工业研究实验室的丰富经验。如果申请者想作为研发工程师加入(依然是研发领域,但是比起理论更具有应用性),依然至少需要有硕士学位,还有大量的机器学习研究相关的经验。
2.微软MicrosoftResearchAI研究院
微软早在1991年便创立微软研究院。2014年,微软联合创始人保罗·艾伦与他人又共同创立了艾伦人工智能研究院。据了解,MicrosoftResearchAI研究院共分为十三个研究小组,共近百位人工智能领域的科学家将集中在此。这些小组包括自适应系统和互动组、空中信息和机器人组、会话系统组、深度学习组、信息和数据科学组、知识技术组、语言和信息技术组、机器学习和优化组、机器教学组、自然语言处理组、感知和互动组、生产力组、强化学习组。
研究方向:人机交互、人机对话、机器学习和思想感知、不确定决策在机器人平台上产生各种挑战、合成算法和系统应用、自然语言处理、马尔可夫决策过程和上下文决策过程的泛化等。
入职及实习(录取)建议:申请者如果想进入MSAI研究院实习,必须准备一份英文简历,建议措辞不需要太过华丽,简单明了最好。重点需要突出自己的编程能力和相关项目经验,如果有相关行业知名人士的推荐信可以附上。可能会面临四轮电话面试,基本都是询问和考察技术面,除了基础问题就是问一些关于项目相关的问题。以即兴提问为主,在回答的过程中,申请者可以尽可能展示自己对于相关技术知识的熟稔程度,这样有助于被最终录取。
3.Facebook人工智能实验室
2013年12月,Facebook正式成立人工智能实验室。该实验室在人工智能和机器学习领域的理念是:保持开放。Facebook最出名的有两大人工智能实验室,一个名FAIR(Facebook’sArtificialIntelligenceResearch),由著名人工智能学者、纽约大学教授YannLeCun领导,另一个名为AML(AppliedMachineLearning),由机器学习领域专家JoaquinCandela领导。
研究方向:主要致力于基础科学和长期项目的研究,以及找到将人工智能和机器学习领域的研究成果应用到Facebook现有产品里的方法。
入职及实习(录取)建议:Facebook已经开始与部分中国大学合作,比如清华和上海交大,采取同美国、法国等地相同的合作模式。如果申请者想获得进入Facebook人工智能实验室的机会,可以首先参与自己大学人工智能领域的相关项目。Facebook会关注大学的科研项目,寻找他们感兴趣的领域,并且找到做那些研究的学生,给他们提供实习的机会。同样,申请者也可以主动递交实习申请,最重要的就是之前的研究经历,论文发表情况,以及一封高质量的推荐信。
三、国内学院派
1.清华大学智能技术与系统国家重点实验室
清华大学智能技术与系统国家重点实验室于1987年7月开始筹建,1990年2月通过国家验收,并正式对外开放运行。实验室由中心实验室(智能技术与系统)和三个分室(智能信号处理、智能图形图像处理、人机交互与媒体集成)组成,分别设立在清华大学计算机科学与技术系、自动化系和电子工程系。
研究方向:认知过程与智能信息处理的交叉与结合研究;基于内容的海量信息处理理论与方法,特别是针对信息安全、信息检索、信息挖掘等研究具体的算法及应用;面向动态过程的机器学习理论与方法;智能信息处理与控制理论在移动机器人与智能车、类人机器人、无人飞机、空间机器人等系统中的应用理论与技术;智能图文信息处理,包括各种文字识别、文档识别和理解等方面。
入职及实习(录取)建议:首先需要申请者是计算机、通讯、电子及相关专业在读研究生或者本科高年级学生;其次,需要在本科阶段学习过算法与数据结构、软件理论基础等相关课程,并取得优良的成绩;此外还需要申请者了解图像识别、深度学习、人工智能、机器学习等相关技术,善于快速学习新知识,有实际项目经验者会被优先考虑。在计算机语言上,需要精通Java/Python等编程语言,有较强的快速编程能力,熟悉Windows/Linux操作系统,并且对算法研发有强烈的兴趣。
2.北京大学视觉与听觉信息处理国家重点实验室
北京大学视觉与听觉信息处理国家重点实验室1988年正式通过国家验收,是北京大学建立的第一个国家重点实验室。实验室以实现高度智能化的机器感知系统为目标,紧密结合国民经济和社会发展的需要,在机器视觉与听觉信息处理领域开展具有多学科交叉性质的基础与应用基础研究,同时注重以原创性的研究成果推动技术创新,实现科技成果转化。
研究方向:在机器视觉领域、机器听觉领域、智能信息系统领域开展生物特征识别与信息安全、图像处理、智能人机交互、语音语言信息处理系统、人工神经网络及机器学习等研究以及视觉与听觉的神经计算模型和生理心理基础研究等。
入职及实习(录取)建议:首先需要申请者是计算机、数学等相关专业在读学生;其次需要拥有扎实的数据结构和算法基础,熟悉C/Python等常用编程语言及脚本语言;拥有有一定的计算机视觉理论学习基础,熟悉常见的深度学习框架;如果有相关的实际项目经验,将是一个极大的加分项目。
3.浙江大学人工智能研究所
浙江大学在人工智能方面有着肥沃的土壤,其计算机学院下设的人工智能研究所是中国设立最早的人工智能研究机构之一。早在上世纪80年代,浙江大学就建立了人工智能研究所。从1981年至今,浙大人工智能研究所见证和参与了人工智能的一系列变化。到现在,人工智能进入大数据阶段,浙大在计算机视觉领域已经建立了相当大的优势。
研究方向:跨媒体智能、混合增强智能、大数据、机器学习、人工智能理论、计算机图形学、多媒体、数据挖掘等领域。
入职及实习(录取)建议:浙江大学人工智能研究所目前暂不对外招生,建议申请者最好考入浙江大学计算机、电子及相关专业在读。其次需要拥有扎实的数据结构和算法基础,熟悉一些常用编程语言及脚本语言。如果有相关的实际项目经验,将有极大的可能被录取。
四、国内市场派
1.百度研究院
百度研究院隶属于百度AI技术平台体系(AIG),下设五大实验室:分别是深度学习实验室(IDL)、大数据实验室(BDL)、硅谷人工智能实验室(SVAIL)、商业智能实验室(BIL)、机器人与自动驾驶实验室(RAL)。目前,百度研究院拥有了包括院长王海峰,以及徐伟、李平、杨睿刚,和新加盟的WardChurch、浣军、熊辉等七位世界级科学家的阵容。
研究方向:商业智能实验室主要关注用于新型数据密集型应用的高效数据分析技术,机器人与自动驾驶实验室则重点关注机器人技术,以及百度在自动驾驶领域技术的推进。
入职及实习(录取)建议:需要申请者熟悉基本的数据结构与算法,熟练运用python编程以及tensorflow等深度学习工具。关注并了解机器学习算法,自然语言理解,知识图谱,图像与视觉等领域的现状与最新进展,并在其中一个领域有实践经验,并保持对前沿的深刻理解。同时具备良好的数学基础,熟悉线性代数、概率与统计、数值优化等,熟悉常见机器学习算法。有人工智能各领域的相关研究经验,有高水平论文发表者,会被优先考虑。
2.阿里巴巴人工智能实验室
阿里巴巴人工智能实验室于2016年成立,于2017年7月5日首次公开亮相,该机构负责阿里巴巴集团旗下消费级AI产品的研发。当前已孵化出天猫精灵个人助手等产品。实验室的使命是让机器拥有智能,让人性充满光辉,将基于阿里巴巴强大消费者沟通渠道和完善的服务生态,立志成为下一代人机交互入口。
研究方向:语音交互、自然语言理解、数据挖掘和知识图谱、用户画像和个性化推荐。工业设计,致力于人工智能硬件产品、机器人的创新工业设计,通过人机交互、产品形态、材料工艺等领域的研究,探索未来智能硬件、机器人的新方式。智能制造,基于人工智能技术的新一代硬件研发与制造,如硬件芯片和模组研究,并提供边缘计算和云端结合的解决方案。机器人技术,从事智能机器人相关的技术研究,包括:实时定位、环境建模、传感器融合、目标检测、场景分割、路径规划、运动控制、故障检测、多机器人系统等方向。
入职及实习(录取)建议:需要申请者是计算机、数学等相关专业在读博士硕士。其次是需要熟悉深度学习、自然语言理解等相关领域技术和应用,有大量实践经验者优先;有科研能力并有成果发表在国际顶级会议、期刊者优先;极佳的工程实现能力,熟练掌握C/C、Java、Python等至少一门语言;良好的数据分析能力和逻辑分析能力。
3.腾讯AILab
腾讯AILab作为企业级AI实验室,依托腾讯丰富应用场景、海量大数据、强大计算能力和一流科技人才,专注于AI基础研究和应用探索的结合。目前已打造出围棋AI“绝艺”,技术也被微信、QQ、天天快报和QQ音乐等上百个腾讯产品使用。团队有70余位来自世界知名院校的科学家,及300多位经验丰富的应用工程师组成,由机器学习和大数据领域专家张潼博士,及语音识别及深度学习专家俞栋博士,并与世界顶级院校与机构合作,共同打造“产学研用一体”的AI生态。
研究方向:基础研究方向包括计算机视觉、语音识别、自然语言处理和机器学习,应用探索需要结合腾讯场景与业务优势,包括内容、游戏、社交和平台工具型等AI四类。
入职及实习(录取)建议:需要申请者是计算机、人工智能等相关专业的博士;熟悉自然语言处理、对话系统和机器学习等领域,有相关的的项目或研究经验优先;有良好的文献检索及前沿问题探索能力及创造力;熟悉python或c/c++编程及深度学习框架。
国内外市场派和国内外学院派最主要的区别在于:学院派注重以理论研究为主要方向,对于人工智能的实用性相关关注度偏弱,而市场派主要是以人工智能前沿技术市场转化研究为主要方向,对于人工智能相关理论进一步研究则相对没有学院派深厚;另一方面,市场派的薪资待遇相对较好,但准入门槛相对较高,绝大部分都需要有一定的项目经验,或者拥有相关的科研成果发表。而学院派则相对门槛较低,但薪资待遇没有市场派高,但是可以跟随导师获取项目研究经验,增强相关理论知识基础,接触人工智能尖端学术研究成果。
总体而言,国内外企业及学院人工智能实验室各有优劣,如果你想要尽快将人工智能相关理论市场化、成果化,同时获取丰厚报酬,建议你选择市场派,而如果觉得自己需要更多的理论知识学习,希望获取尖端的学术研究,以便自身的进步,则可以选择去学院派。总之,大家根据自身需求,各取所需。