博舍

人机对话的场景革命 机器人对话是怎么做到的呢视频

人机对话的场景革命

以下文章来源于经济观察报观察家,作者吴晨

经济观察报观察家.

理性,建设性

我们在人机对话的未来可以畅想的场景:如果可以让我们有更多时间陪伴家人,凝聚社区和社群的力量,机器就是美好的。

作者:吴晨

封图:图虫创意

导读

壹||新闻与出版是同一件事,为消费者提供优质的内容。人机互动的场景给新闻业带来的改变会与出版业类似,这也是霍夫曼在《Impromptu》中开的比较大的一个脑洞。

贰||对话将不仅会发生在数字分身和粉丝之间,也可能发生在数字分身之间,甚至穿越时空,构成一幅新时代“关公战秦琼”的场景。

叁||我们也可以从解放生产力的角度来理解人和机器的区别,其实这是创意与效率的区别。

肆||如果机器将取代大多数入门级的白领工作,年轻人又将如何积累经验?GPT的解答中规中矩:以咨询业为例,虽然机器会替代刚入行的分析师,但AI可以创建出更加真实的虚拟场景为年轻的分析师提供培训。

《Impromptu》(即兴)是第一本人与GPT-4合作撰写的书,全书至少有三分之一的篇幅是作者里德·霍夫曼与“合作者”GPT-4的对话,其中既有GPT给出的书稿提纲,也有GPT帮助霍夫曼准备播客对话的问题列表,还有GPT根据霍夫曼的提示写出的剧本……

恰如书名,“即兴”点出了GPT的特点。它的反馈是即兴的,既迅捷,又具备一定的广度,而且时不时还能给人意想不到的惊喜。“即兴”同时也是霍夫曼的行事方式,突然有一个好的想法,马上就去做,如和机器一起去写一本研究AI应用和未来的书。当然,“即兴”也凸显了这一波生成式AI的来势凶猛。在AIGC的冲击之下,许多领域会发生剧变,而理解乃至前瞻这种剧变,需要运用“解构”的思维方式。

《Impromptu》解构了我们所理解的书的形态,是一种基于人机互动的解构。

首先是动态的书的出现,书会不断处于更新状态。霍夫曼在书中让GPT-4写了一篇AI如何改变未来的大纲,很详细,也很实用。在技术进化如此迅捷的世界,这会是一个演进中的议题,书自然需要不断更新,因为GPT-4自身的认知会在互动中升级,而作者也会在互动中不断碰撞出新的想法。

其次它展示出互动阅读的全新场景。因为书本质上是开源的,GPT可以调用全球出版过的各种书籍,其搜索能力、整合能力和涉猎的广度都是惊人的。如果在阅读的过程中加入人与GPT引擎的互动,比如人机一问一答的形式,会让阅读在双向互动的过程中变得越来越深入。在这种互动的解构中,书的使用方式将会发生改变。比如“拆书”就会变成一种读者主导的AI服务,而“30分钟帮你读懂一本书”的商业模式则会消亡。

第一种场景让可更新版电子书成为常态,第二种场景则会完全重构出版业的生态。两个场景之间又会产生互动。未来出书将不再是一次性的,而是一种进行时,读者阅读书籍的互动也随之会发生本质的改变。

从这一解构的思路出发,我们可以再进一步开脑洞延伸,想象一下两大行业可能被颠覆的形式。

首先是阅读商业场景的进化。微信读书是最近几年出现的订阅式阅读服务,只要支付年费,就能畅读书库里的书,出版商也会因为某本书的阅读量获得一定程度的分润(虽然并不可观)。类似订阅制的读书服务未来将被重塑。阅读的起始点将不再是首页上推荐的某本畅销书,而是读者的一个困惑或者一个想法。在与AI小助手的互动过程中,读者可以就一个话题越挖越深,让GPT概括一些书的观点,或者推荐某本书的特定章节。从这一意义来讲,GPT会扮演强大的“守门人”(Gate-Keeper)角色,读者与特定书的关联会更弱,读者与整合的知识的关联会更强。

这种变化优劣互现。优势在于,阅读变成了一个可以不断深入的启发式的过程,一个问题会衍生出十个问题,甚至更多,在这一过程中,电子书库中的长尾——一些不大为人问津的书——会被挖掘,而不是像现在因为“流量逻辑”的霸权,只有畅销书才可能被展现在大多数读者面前。因为流量掌握在平台、KOL(KeyOpinionLeader,意见领袖)和KOC(KeyOpinionConsumer,意见消费者)手中,书籍的马太效应明显。劣势则是书会被拆解为观点,读者与书的关联度、与作者的关联度可能会进一步弱化,出版本身的商业模式也需要重新探讨。

沿着同样的思路也可以畅想一下图书馆的进化。图书馆与支付年费的付费在线书库有两大区别:第一,它的藏书更丰富,涵盖的领域更广,藏书的长尾也更长;第二,因为公益性质,它的学习和研究导向更明确。GPT可以成为互动高效的图书馆员。它不仅能帮助读者找到所需要的书,在互动过程中精准推荐与读者研究方向相关的书籍,还能充分调用图书馆的图书资源,帮助读者深入一个领域内的学习,或者强化一个领域内的研究。当然,现代论文的引经据典、检索服务也可以由GPT来完成。

人机互动如何颠覆新闻行业

未来被解构的不仅仅是书、出版业或者图书馆,还有许多行业也可能被解构,比如新闻业。本质而言,新闻与出版是同一件事,为消费者提供优质的内容。人机互动的场景给新闻业带来的改变会与出版业类似,这也是霍夫曼在《Impromptu》中开的比较大的一个脑洞。

首先,记者和编辑的岗位不会改变,甚至需要加强,因为他们是重要的资讯产出者。理由很简单,GPT还无法完成现场报道,或从事深入调查的工作。

其次,记者的产出将成为GPT与读者互动的基础,有公信力的旧闻数据库会成为GPT不断挖掘的金矿,与图书的长尾效应类似。

第三,新闻作为产品将经历与一种全新的解构和重组。前数字时代,报纸和杂志是以捆绑销售(Bundle)的形式呈现的,即使读者只感兴趣某几个特定版面,仍然需要订阅整本杂志/报纸,换句话说,他可能在为一份报纸涵盖数十个版面买单。

数字时代的做法是去捆绑,千人千面,根据读者阅读的喜好推荐更多类似的文章。数字订阅也可以阶梯定价,按照阅读量来收费。显然,去捆绑比捆绑销售要亲民得多,读者不用补贴不感兴趣的内容,好的推荐也能让读者更快看到自己感兴趣的内容。

当然去捆绑也带来了一系列的问题:捆绑销售中所隐含的对内容创作的补贴没有了,新闻机构可调用的内部资源相应变少;而定制化的内容也局限了读者的视野。内容捆绑的一个很少被人提及的假设是人的需求会随着时间和场景的变化而变化,捆绑而不是精准推荐可以让用户有机会发现自己惯常视野之外的内容,前数字时代翻阅报纸和杂志的动作本身就创造了这种偶遇新知的机会。

数字时代的定制把推荐的主动权交给了算法,而AI时代则会把主动权再次交回给读者,因为读者阅读新闻的场景会以互动式为主。比如一个场景是节约时间,用户可以让GPT将报纸的头条内容做一个简单总结。另一个场景则是不断挖掘式的,比如用户会提出一连串的问题:硅谷银行为什么暴雷?第一共和银行暴雷与硅谷银行有什么关联?与最近几年美国对小银行的监管改革有关系么?与美联储最近一年快速加息的关系是什么?对全球金融市场会产生什么影响?读者在问问题互动的过程中会不断加深对特定问题的理解。当然这种互动一方面会训练GPT,另一方面也会将读者感兴趣的话题、读者的好问题整理传递到编辑室,推动“参与经济”的发展。

KOL的数字分身

与新时代的“关公战秦琼”

解构的同时也会有建构,建构全新的人机互动的场景。比如,可以让GPT仔细阅读一位KOL的作品,无论是文字、音频还是视频,然后形成定制化的数字分身。作为KOL的延伸,这个数字分身可以在虚拟世界与粉丝互动,在一定范围内替代KOL回答粉丝的问题。

前媒体时代,KOL通过著书立说成为有影响力的人。传媒时代,报纸、杂志、广播和电视的出现,让KOL有更多的载体和媒介去展示自己,也让更多人可以成为KOL。

进入数字经济时代,社交媒体成为KOL最重要的传播阵地。从博客(社区)到微博,从脸书到推特,再到最近播客(音频)和视频(长视频和短视频)的兴起,都为KOL提供了影响粉丝的新工具。这些平台和工具更加具有及时性和互动性,KOL通过不同载体展现自己的想法、价值观、个性和创造力。

当一个人的粉丝快速增长之后,与粉丝的互动、需要回答的问题也会呈现几何级的增长。生成式AI会把这种问题转换成为KOL的优势,进一步赋能。KOL的数字分身可以传达KOL的想法,同时搜集用户的问题和兴趣点。

对话将不仅会发生在数字分身和粉丝之间,也可能发生在数字分身之间,甚至穿越时空,构成一幅新时代“关公战秦琼”的场景。

对话能产生更多的互动价值,顺着这一思路延展,我们也可以创造出一系列全新的对话形式。其实无论是东方还是西方,语录体都是古代哲人记录思考最重要的方式,而语录体的根本就是对话,两个人哲人之间的对谈,或是弟子记录与老师沟通交流的文字。

训练有素的GPT可以做到清晰和深入地理解每一位重要作者的著作,梳理他们的观点,了解他们说话和写作的习惯和特点,知道他们生平中的主要事迹和各种奇闻逸事。在对这些数据梳理的基础上,我们可以做出每个历史上和现代的思想者的数字分身,然后让这些数字分身之间展开对谈。

在梳理历史的时候,我们经常会问某某两个同时代的人之间是否有交集,我们没有证据证明两人见面,但我们推测或许他们的人生曲线上有过碰撞,在他们的著作中留下了蛛丝马迹。在阅读的时候,我们也常常会引古人为挚友,相见恨晚,却无从进一步沟通交流。而不同时代的思想者的碰撞不仅会满足我们的好奇心,也可能碰撞出新的火花。

霍夫曼在《Impromptu》的最后篇章中已经开启了一些“关公战秦琼”式的跨越古今的对话,未来只可能会更精彩。

人机对话背后所展现的

人与机器的本质区别

从一系列人机对话的场景革命中不难看出人与机器的三大本质区别——

首先,人擅长问问题——人机对话的发起者通常是人类,而机器可以很好地把问题延展开。未来,对人而言,需要训练的是如何问出好问题,这就需要从小培养好奇心、创造力和质疑精神。

其次,生成式AI所基于的大语言模型依赖的是历史积累下来的大数据训练库,人与机器的区别在于人可以更快学习和探索新的技能,形成新的洞察。数据库是过去时,而人需要面向未来,拥抱未来,探索新知。机器替代不了探索、实验和发现,人要花更多时间和精力去探索和实验。

第三,相比机器,人有更强的行动力。人的优势是将想法和洞见付诸实践,这就需要培养判断力、沟通力和领导力。

在新书《5000天后的世界》中,凯文·凯利(KK)同样指出,人和机器最大的区别是人会不断提问。KK认为,不断提问必然会成为人类最基本也最有价值的行为之一。可以马上得到答案的问题应该扔给机器,人的价值在于在面对不知道答案的问题(未知的未知)时,可以不断思考,不断提问。学会提问题,问好问题,最切实的做法是质疑人们习以为常的事情,学会推翻常理进行思考。

我们也可以从解放生产力的角度来理解人和机器的区别,其实这是创意与效率的区别。未来,机器将去完成那些提升效率的事情,而人则会专注于创意这样多元而低效、很多时候充满不确定的事情。科学和创新这些很难标准化、需要不断寻求突破的活动,恰恰是效率低下的,也是需要充分发挥人的想象力的领域。

当然我们也不能忽略现阶段生成式AI带来的问题:一方面会出现大量平庸的产品,对原创的、高质量的创作产生冲击;另一方面则可能出现大量同质化的作品。改变这两点需要更有创意的人机互动,因为人仍然掌握着巨大的主动权。

霍夫曼提出了当下人机互动的两个信条:第一,将它视为在读大学阶段的研究助理,霍夫曼建议换位思考,想象一下大学生的状态,就能摆正自己与机器互动时的期待值,同时不断强调检验事实的重要性;其次,将自己定位为导演/指挥,把握方向,但给机器一定的延展空间,这样会不时遇到惊喜。

展望未来的姿势——

倾听科技,前瞻“二阶效应”

对于AI的高歌猛进,KK和霍夫曼都是乐观主义者。KK还据此创造出一个新词进托邦(Protopia)。他认为技术的正面效应与负面冲击分别占51%和49%,因此在5000天(超过13年)这样长时间尺度,根据复利原则,技术的正面效应仍然会带来持续不断的进步。我们所要做的是学会“倾听科技”,同时要努力对新技术带来的“二阶效应”做出预判。

科幻作家克拉克这样解读“二阶效应”,巨大变化发生之后,你很难预知它的影响会波及哪里。重大改变之后可能产生意想不到的场景,想象马车进化到汽车比较容易,但想象汽车大规模出现后的堵车则很难。

比如预测无人驾驶的未来,KK最担心人类驾驶员和机器抢夺道路上优势地位所带来的混乱。他畅想到了2040年,当人和机器同时在街上开车时可能是最为混乱的,因为道路的改变正在从人类驾驶员的视角转换到机器的视角,同时他也担心机器堵车时会出现死机、宕机,或者狂飙的场景。

GPT可能带来哪些“二阶效应”呢?霍夫曼在书中对此并没有开出巨大脑洞,他询问GPT怎么解决从新手到熟手的转变,换句话说,如果机器将取代大多数入门级的白领工作,年轻人又将如何积累经验?GPT的解答中规中矩:以咨询业为例,虽然机器会替代刚入行的分析师,但AI可以创建出更加真实的虚拟场景为年轻的分析师提供培训。

显然,GPT还没有能够理解什么是“二阶效应”,技术带来的真正深远的改变会在技术之外。以咨询业为例,如果其商业模式是依靠品牌价值,著名咨询公司的品牌积累了大量价值,这些公司还可以扮演“好念经的外来和尚”,技术可以让他们把工作做得更快更好,暂时不会颠覆他们的商业本质;但如果其商业模式是“合伙人打单,年轻的分析师996干活,赚取中间的工资差价”,那么机器的高效率就会带来彻底的颠覆。

面对变革,KK提出阿米什人评判科技的标准值得我们思考。作为定居在美国中西部德裔居民的后代,阿米什人以拒绝使用新科技、坚持传统农耕做法著称。但实际上,他们并不是完全拒绝新科技,他们衡量哪些科技可以使用基于两大标准:第一,新科技是否可以让生活变得更轻松,让他们有更多时间陪伴家人;第二他们以社区和社群作为整体,强调科技服务社区。

或许这也可以成为我们在人机对话的未来可以畅想的场景:如果可以让我们有更多时间陪伴家人,凝聚社区和社群的力量,机器就是美好的。

(作者为《经济学人·商论》执行总编辑)

经观头条|厌恶风险的年轻人,选择跨城存钱赚利息

龙头股价下坠,巨额扩产密聚,千亿光伏战打响!

当一款降糖药成为减肥神药

原标题:《人机对话的场景革命》

阅读原文

机器人和你聊天是怎么做到的语音助手=人工智能

导读:让机器理解人类的语言,或者模仿人类的语言是大家对人工智能最初的幻想,所以在早先,图灵测试一度成为评判人工智能的标准。对话和翻译应用的是人工智能众多学科分支里自然语言处理(NatureLanguageProcessing,简称NLP)的部分,目的是要解决人和机器之间的沟通问题,是人工智能处理的发端,至今仍面临很多问题。

赢了柯洁的AlphaGo让很多人看到了AI太过强大的一面,然而我们大多数人在生活中感受到的AI却是十分“智障”的,不太有人工智能应该有的样子。

这种巨大的反差主要是因为能应用在生活中的人工智能,还长时间处于早期阶段。

比如语音助手。

但对话和翻译其实是人工智能最早涉足的领域。

能让机器理解人类的语言,或者模仿人类的语言是大家对人工智能最初的幻想,所以在早先,图灵测试一度成为评判人工智能的标准。

对话和翻译应用的是人工智能众多学科分支里自然语言处理(NatureLanguageProcessing,简称NLP)的部分,目的是要解决人和机器之间的沟通问题,是人工智能处理的发端,至今仍面临很多问题。

就拿对话系统来说,市面上各个巨头都推出自家智能语音助理,但鲜有一款能完全摆脱“智障”的嫌疑。

可以说在这条赛道上,大家跑的都不快。但尽管如此还是坚持在跑,就连长期困顿在手机里的Siri,也要推出自己的智能音箱。

“尽管目前形势不太乐观,但是一直跑下去,总会见到成效。”6月1日,微软亚洲研究院副院长周明表示,再坚持5-10年自然语言处理就会看到长足发展。

周明博士认为自然语言处理的发展有三个阶段:

第一层是基础技术:分词、词性标注、语义分析等。

第二层是核心技术:词汇、短语、句子、篇章的表示。包括机器翻译、提问和回答、信息检索、信息抽取、聊天和对话、知识工程、语言生成、推荐系统。

第三层是“NLP+”:仿照“人工智能+”或“互联网+”的概念,实际上就是把自然语言处理技术深入到各个应用系统和垂直领域中。比较有名的是搜索引擎、智能客服、商业智能和语音助手,还有更多在垂直领域——法律、医疗、教育等各个方面的应用。

关于第三层的“NLP+”,市面上大大小小的语音助手有不少,从微软毕业的有两个:小娜(Cortana)和小冰。虽然都是语音助手,但是两者还是有些区别。

小娜通过手机和智能设备介入,让人与电脑进行交流:用户发布命令,小娜理解并执行任务。同时,小娜能够记忆一些用户性格特点、喜好、习惯,然后主动给一些贴心提示。

比如,你过去经常路过某个地方买牛奶,在你下次路过的时候,她就会提醒你,问你要不要买。她从过去的被动到现在的主动,从原来的手机,到微软所有的产品,比如Xbox和Windows,都得到了应用。

小冰纯粹就是闲聊了,没想帮你解决什么问题,它闲聊的主要目的是希望尽可能的“像人一样”。

“它是一种新的理念,很多人一开始不理解。人们跟小冰一起的这种闲聊有什么意思?其实闲聊也是人工智能的一部分,我们人与人见面的时候,寒喧、问候、甚至瞎扯,天南海北地聊,这个没有智能是完成不了的,实际上除了语言方面的智能,还得有知识智能,必须得懂某一个领域的知识才能聊起来。所以,小冰是试图把各个语言的知识融汇贯通,实现一个开放语言自由的聊天过程。”

而小冰最开始是怎么学习聊天的?主要是跟网友学的。

首先将网上的论坛、微博或是网站里出现过的对话句子抽取出来,当成训练语料库。当用户输入一个句子时,系统会从语料库里找到一个跟这个句子最相像的句子,而这个句子对应的答复就可以直接输出作为电脑的回复。虽然看起来简单粗暴,但确实奏效。

有的时候,系统找到的句子可能对应了很多回复,它不知道哪个回复最适合当前的输入语句。这时就会再有一个匹配的过程,去判断输入语句跟语料库里的回复在语义上是相关的或者是一致的。

到目前,小冰已经覆盖了三种语言:中文、日文、英文,累积了上亿用户,平均聊天的回数23轮,平时聊天时长大概是25分钟左右。

目前取得的自然语言方面的成果,是微软18年的努力。

微软在1998年11月5日成立微软亚洲研究院时就开创了自然语言处理的研究领域,除了200多篇顶级期刊、学术大会的论文,还有大量的NLP人才。

2014年5月,微软推出小冰,同年7月,推出Cortana。

2016年,微软首席执行官萨提亚在Build大会上提出了一个概念“对话即平台”(“ConversationasaPlatform”,他认为图形界面的下一代就是对话,它会对整个人工智能、计算机设备带来一场新的革命。

而小冰和小娜就是微软为这场革命做出的准备之一。

其实无论小冰这种闲聊,还是小娜这种注重任务执行的技术,背后单元处理引擎无外乎就三层技术。

第一层:通用聊天,需要掌握沟通技巧、通用聊天数据、主题聊天数据,还要知道用户画像,投其所好。

第二层:信息服务和问答,需要搜索的能力,问答的能力,还需要对常见问题表进行收集、整理和搜索,从知识图表、文档和图表中找出相应信息,并且回答问题,这些统称为InfoBot。

第三层:面向特定任务的对话能力,例如订咖啡、订花、买火车票,任务是固定的,状态也是固定的,状态转移也是清晰的,就可以用Bot一个一个实现。通过一个调度系统,通过用户的意图调用相应的Bot执行相应的任务。它用到的技术就是对用户意图的理解,对话的管理,领域知识,对话图谱等。

除了创造出小娜小冰,微软还要技术释放,让开发者能开发自己的Bot。如果开发者的机器不懂自然语言,这时就可以通过一个叫BotFramework的工具来实现。

任何一个开发者只用几行代码,就可以通过BotFramework完成自己所需要的Bot。比如,有人想做一个送披萨外卖的Bot,可以用BotFramework填入相应的知识、相应的数据,就可以实现一个简单的Bot。很多没有开发能力的小业主,通过简单操作,就可以做一个小Bot吸引来很多客户。

在这个开源平台里有很多关键技术。微软有一个叫做LUIS(LanguageUnderstandingIntelligentService)的服务,提供了用户的意图理解能力、实体识别能力、对话的管理能力等等。

比如说这句话“readmetheheadlines”,识别的结果就是朗读,内容就是今天的头条新闻。再比如说“Pausefor5minutes”,识别的结果是暂停,暂停多长时间?有一个参数:5分钟。通过LUIS,可以把意图和重要的信息抽取出来,让Bot来读取。

这些对于人类来说甚至不需要动脑思考的对话,对于机器来说是难到了另一个层次上。

周明博士认为人工智能有四个层次,从下往上依次是:运算智能、感知智能、认知智能和创造智能。

运算智能已经达到很高的水平了,感受一下来自世界顶级围棋选手对AlphaGo的评价。

其次是感知智能,主要体现在听觉、视觉和触觉方面,也就是我们通常说的语音技术、图像技术。语音技术用的就多了,比如让Cortana听懂你说的话,图像识别主要应用在人脸识别上,喜欢跟随科技潮流的公司一般会把门禁换成人脸识别。

认知智能是我们今天说的重点,主要包括语言、知识和推理。语言的重要性体现在什么地方呢?Cortana不能只是识别出来你在说啥,它需要根据你说的话做出回应,这时候就需要理解你在说什么。

创造智能就是一种最高级的形态了,也就是当AI拥有想象力的时候。

在运算和语音、图像识别上,机器已经能达到很高的准度,目前的主要缺口在认知智能上。过去认知智能主要集中在自然语言处理,它简单理解了句子、篇章,实现了帮助搜索引擎、仿照系统提供一些基本的功能、提供一些简单的对话翻译。

周明博士认为语言智能是人工智能皇冠上的明珠,如果语言智能能实现突破,跟它同属认知智能的知识和推理就会得到长足的发展,就能推动整个人工智能体系,有更多的场景可以落地。

对于未来语音智能的发展,周明博士认为有几个方向:

第一,随着大数据、深度学习、云计算这三大要素推动,口语机器翻译会完全普及。

第二,自然语言的会话、聊天、问答、对话达到实用程度。

第三,智能客服加上人工客服完美的结合,一定会大大提高客服的效率。

第四,自动写对联、写诗、写新闻稿和歌曲等等,

第五,在会话方面,语音助手、物联网、智能硬件、智能家居等等,凡是用到人机交互的,基本上都可以得到应用。

最后,在很多场景下,比如说法律、医疗诊断、医疗咨询、法律顾问、投融资等等,这些方面自然语言会得到广泛的应用。

当然,现在的自然语言现在也面临许多困境。最关键的一点是如何通过无监督学习充分利用未标注数据。现在都依赖于带标注的数据,没有带标注的数据没有办法利用。但是很多场景下,标注数据不够,找人工标注代价又极大。

那么如何用这些没有标注的数据?这就要通过一个所谓无监督的学习过程,或者半监督的学习过程增强整体的学习过程。

再给NLP一些时间,语音助手也许就能说服你它其实是人工智能了。

页面链接: https://news.znds.com/article/22936.html

人形机器人,一场事先张扬的反常识

文|星船知造 清波

编辑|唐晓园

人形机器人产业存在一个反直觉现象:

目前人形机器人本体玩家中,竟然既不包括远近闻名的工业机器人四大家族(发那科、ABB、安川、库卡),也少见国内排名靠前的几大机器人巨头(埃斯顿、埃夫特、广数、新松、汇川、新时达、钱江)的身影。

当下人形机器人本体处于领跑位置的玩家,是汽车行业大佬,如特斯拉、本田、丰田。或是科技企业,如小米、谷歌、亚马逊。

库卡等传统工业机器人巨头反而鲜有入局。

但另一方面,当人形机器人概念股迎来井喷时,率先引爆的却还是工业机器人老三样——控制器、伺服电机、精密减速机。比如生产线性关节的拓普集团;旋转关节的三花智控;空心杯电机的鸣志电器;滑动丝杠、行星滚柱丝杠、空心杯电机的江苏雷利;伺服电机的汇川科技;谐波减速机的绿的谐波等等,均在人形机器人概念的助力下,有不俗表现。

要解答这个反直觉现象,星船知造还得从人形机器人既传统硬核(工业机器人老三样)、又酷炫前沿(人工智能)的产业链角度进行分析——

1,为什么说人形机器人是属于明天的产业,如何理解其巨大潜力?2,人形机器人iPhone时刻还远未到来,是卡在了哪些领域?3,人形机器人产业链各环节当下情况4,GPT技术在人形机器人中的场景应用和人形机器人终极猜想

01人形机器人和具身智能

阿西莫夫的《钢穴》里有这样一段对话,大意是:

如果你要管理一座农场,你有两个选择。一是在拖拉机、收割机、翻土机、汽车、挤奶器这些机械上都装上一部“电子脑”,让它们成为智能机械。二是让收割机、翻土机、汽车、挤奶器都维持原样,但使用一个拥有“电子脑”的机器人去操作它们。聪明人会怎么选?

我们认为上述这段文字形象的表明了人形机器人的意义和优势:

与其把所有工具全部重新设计,不如生产出能模仿人类外形和行为方式的机器人。TA完美接入人类现有生活、进入所有人类已经存在的场景、使用所有人类正在使用的工具。

一句话,我们一切的生活和生产都不需要为了这种机器人做任何多余、额外的改变。

作为一门集机、电、材料、计算机、传感器、控制技术等多门学科于一体的产业,人形机器人是国家高科技实力和发展水平的重要标志。全球发达国家都不惜投入巨资进行开发研究。

日、美、韩、英等国都在研制仿人形机器人方面进行了大量投入

今年5月的特斯拉股东大会上,马斯克通过视频向全世界的投资者展示了Tesla人形机器人的最新进展:

Optimus(擎天柱)已经可以完成分类物品的复杂任务,如捡起物品、环境发现和记忆等。较之去年9月底的亮相,其运动控制能力持续进化,AI能力提升。马斯克认为特斯拉的未来长期价值可能都是Optimus给予的。

马斯克总财富已超越法国奢侈品巨头LVMH总裁,重新夺回世界首富头衔

日本本田公司最新开发的新型机器人ASIMO(阿西莫),身高120厘米,体重43公斤,它的走路方式更加接近于人。

source:本田

韩国KAIST代表产品HUBO+身高1.7m,体重80kg,具有32个自由度。

source:KAIST

美国波士顿动力研发的代表产品Atlas身高1.8m,体重80kg,具有28个关节,可完成原地起跳转身一周等高难度动作。

硬件结构上,Atlas拥有轻量级结构件皮肤和足部力控传感器,雷达与深度相机形成视觉感知,28个液压关节驱动完成一系列敏捷动作,本体搭载3台NUC/工控机负责整体控制系统的运算。

软件方面,波士顿动力运用行为库、实时感知和模型预测控制(MPC)技术将相机、雷达等传感器接收的数据进行分析并对决策制定和动作规划提供支持。

source:波士顿动力不得不说,波士顿动力的就是酷

我国人形机器人在科研领域,有国科大研发的“先行者”机器人,可完成静态和动态步行动作;哈工大推出的“HIT-III”机器人能完成上、下斜坡等动作;清华大学开发的“THBIP-II”具有24个自由度等。

在产业领域,深圳优必选推出的“Walker”机器人能完成上、下台阶等动作;小米于2022年8月公布的人形机器人CyberOne(铁大),升级后的运动控制算法支配这机器人全身13个关节和21个自由度,实现双足运动姿态平衡;电机性能增强10倍,髋关节主要电机的动力扭矩峰值可达300Nm,峰值扭矩密度96Nm/kg;之江实验室展示的人形机器人能借助高精度视觉感知系统,定位琴键进行高精度手指运动。

深圳优必选“Walker”机器人

马斯克对于机器人市场的判断并非“空穴来风”。IFR数据,2022年全球机器人市场规模已经达到了513亿元的高点,2017-2022年CAGR达14%。

其中工业机器人市场规模195亿美元,服务机器人市场规模达217亿美元,特种机器人市场规模超100亿美元。到2024年,全球机器人市场规模有望超650亿美元。

另据Marketsandmarkets预测,全球人形机器人市场规模(仅考虑单机)将从2022年15亿美元提升至2027年的173亿美元(约合人民币1038亿元),千亿市场的容量指日可待。

从零售端的价格来看,此前美国波士顿动力推出的四足机器人SpotMini定价约为74500美元,上线一年卖出了大约400台,人形机器人Atlas并未上市。面对高昂的价格,马斯克曾公开表示,他的人形机器人将以低于2万美元的价格销售,并实现大规模生产。

做一个最为简单的推算:即使未来Optimus的销量只有马斯克所说100亿台的1/100,那么其市场规模就有2万*1亿=2万亿(美元),这是何其壮观的数字。

source:特斯拉

目前人形机器人的iPhone时刻还远未到来。

从广义范畴来看,人形机器人在本质上并没有脱离机器的束缚,即便拥有了人体的形状,但仍然是机器人的一种。只不过,在装备了感知系统、驱动系统、末端执行系统、能源供应系统,运算系统及软件这五大系统之后,在人工智能度上,人形机器人较之我们更为熟悉的工业机器人有了长足的进步。

传统工业机器人更像一台机器而并非“人”。由于其所运行的轨迹都是被事先编程好,只可以在固定区域,特定场所,做规定而重复的动作,不具备独立处置突发(非程序内)问题的能力,只能被归类为非智能机器人。

需要与环境(包括人)发生交互,做出反应,就要求人形机器人拥有相当程度的人工智能。用更为规范的学术语言描述,这样一种人工智能就叫做具身智能。

具身智能(EmbodiedIntelligence),指的是智能体通过与环境产生交互后,通过自身的学习,产生对于客观世界的理解和改造能力。

能够产生具身智能的假设前提是:智能行为可以被具有对应形态的智能体,通过适应环境的方式学习到。有鉴于此,地球上所有的生物,都可以说是具身智能。

黄仁勋在2023年ITF世界大会上说:“人工智能和加速计算正在共同改变技术行业。下一波人工智能浪潮将是一种被称为具身AI的新型人工智能,即能够理解、推理并与物理世界互动的智能系统,即具身智能。”

具身智能是能够提升当前“弱人工智能”认知能力的重要方式。亦是产生超级人工智能的一条可能路径。

具身智能可以理解为人工智能发展的高阶形态,也有可能成为AI的终极形态。说得更加透彻一点,人形机器人的未来,就是赋能了具身智能的真正智能机器人。

如此智能的人形机器人会是如何接受指令,完成任务的呢?

首先,机器人的感知系统把机器人的各种“内部状态信息”和“环境信息”从“信号”转变为机器人自身或者机器人之间能够理解和应用的“数据”和“信息”。也即是说,让机器人理解周围的环境。

科学家(厂家)在机器人身上安装各类传感器,包括光、声音、温度、距离、压力、定位、接触等等,让机器人能通过“五官”来接近人类,收集感知外界的信息。

各类传感器应用技术的突飞猛进,保证了人形机器人得以发展。

传感器精度和可靠性的不断提高是当前亟待解决的难题之一。举例来说,在进水,进到粉尘或者颠簸之后,相机的校准就容易失效,长期使用之后像素点就容易坏死等硬件问题都会直接导致机器识别率在准确性上的丢失。

其次,机器人的驱动系统和末端执行系统需要协同工作,各司其职,就如同人类依靠身体各部位上的78个关节来行动。

用在机器人上的每一个关节的技术门槛和成本都很高,不仅要求体积小、精度高、重量轻,还同时要求抗摔耐撞。当机器人快速运动时,驱动力输出功率很高,要保证不会因为发热问题而烧坏,同时具备缓冲能力,保护“机器人关节”不怕撞击。

末端执行系统中的“手”,是技术难度非常高的部分。在实际抓、举、拿、捏等动作的操作过程中,机器人手指柔软度与抓握力度的协同性非常重要:抓轻了东西容易掉,抓得重了则直接破碎。

举例来说,特斯拉发布的Optimus展示出了与人手非常相似的机械手:

Optimus拥有11个精细的自由度,结合控制软件,能完成像人手一样复杂的操作,承担约9公斤负重。最新的demo视频中,我们也能看到特斯拉机器人在硬件上的一定优势,包括能控制力度的抓握很多物品,并且不会打碎鸡蛋。

再次,机器人的驱动系统和能源供应系统用于保障其动作的完成。按照波士顿动力官网的描述:Atlas机器人,虽然各种炫技动作很酷,但必须配置功率很大的液压驱动。实际上,Atlas配置了28个液压驱动器才能让机器人完成各种爆发力超强的动作,而这样的代价也是波士顿动力的老问题了——

制造成本居高不下,难以走出实验室完成商业化。

马斯克在Optimus身上选用了稳定性、性价比更高的电机驱动方案,就是出于成本考虑。也正是因为这样,才有底气把Optimus的目标售价定在2万美元,以此来满足巨大的潜在市场需求。

最后,用机器人的运算系统及软件来进行分析思考和对应指令的下达。

第一,理解需求和环境。机器人会通过传感器了解周围环境,搞清楚要做什么。

这一层的难点在于:视觉等环境识别和理解,包括识别未知物体以及识别物体的未知姿态。

第二,拆解任务和进行路径规划。

这一层的难点在于:人工智能输出时的不稳定性。因为在人工智能拆解任务的时候,每一次的解法可能都不相同,可能导致任务拆解的不一致,产生意想不到的结果。

第三,命令驱动硬件执行任务。需要把运动规划转变成机械指令发到机器人的驱动系统上,确定能量、动量、速度等合适后,开始执行任务。

这一层的难度在于:目前的人工智能还做不到100%的准确率,同时速度较慢,耗时耗力,但是硬件执行任务的驱动需要精准控制,要以100%的准确率作为基础,因此业内还是会采用传统的控制论方式来发号施令,执行任务。

由此可知,要让人形机器人身上的这四大硬件,一大软件系统有机地整合在一起,协同工作,相互配合,同时还要让合适的部位有合适的力量、速度和准确性来完成所需的任务,绝非易事。

仍以特斯拉的Optimus来说。2021年8月,马斯克在特斯拉年度AI开放日上首次公开展示了Optimus的想法。仅过一年时间,“擎天柱”原型机就于9月30日特斯拉AIDay发布,硬件方面,“擎天柱”身高172CM,整体重量73KG;行走功率500W,坐下功率100W,整体参数与2021年概念机略有出入(概念机参数:身高172CM,体重57KG,负载20KG,行走速度最高可达每小时8公里)。

电机驱动上,Optimus拥有2.3KWH、52V电压的电池组,内置电子电器元件的一体单位,支持人形机器人工作一整天;选用28个定制关节驱动器,复用汽车动力总成设计经验,设计6种关节驱动器,包括3种不同规格的舵机(采用谐波减速器)和3种不同规格的直线执行器(采用永磁电机,可抬动1.5吨三角钢琴的),找到成本与效率的最佳组合。

目前特斯拉已把汽车的一些技术运用到了Optimus上,例如电池组、冷却系统等,还使用与汽车测试类似的技术来进行机器人的运动和对外部碰撞模拟。

特斯拉的全自动驾驶系统FSD也直接被应用在Optimus上,机器人采用了与汽车一样的视觉感知,使用摄像头输入数据,以神经网络进行计算。

未来对特斯拉人形机器人或许还有以下惊喜:

特斯拉在新材料、电子技术上的研发能力较强,可能会用到特斯拉在火箭上的技术积累;给特斯拉带来持续爆款话题等。

02人形机器人的产业链各环节分析

先说结论。未来人形机器人产品之间的竞争,归根到底是一场各个本体厂家在人工智能(AI)赛道上的竞争。

首先比的是人工智能水平的高低:能否像人一样,理解外部环境和内部中枢发出的信息和指令,理解,判断并做出正确反应。

其次比的是各个软硬件之间的协同工作能力:哪怕每一个部件都是同类中最好的,但总成不好,搭配不当,同样发挥不了最佳实用效果。

再次就是量产后的成本比拼了:人形机器人终究是一种商品,如果其最终成本达不到市场能接受的程度,那做的再好充其量也只是一种没有商用价值的实验室产品。

人形机器人,作为机器人领域里新崛起的一个重要分支,其产业链也是由上中下游三个部分组成。

上游为核心软硬件,硬件包括伺服电机、减速器、控制器、传感器等;软件方面主要包括机器视觉、人机交互、机器学习、系统控制等。

中游则是人形机器人本体制造商,也就是能把上游的核心软硬件组合在一起,生产出能走、蹲、跑、跳、能捡东西、能抓物体的人形机器人的厂家。国内主要有优必选、北京钢铁科技、小米等,国外的则包括波士顿动力、美国敏捷机器人、特斯拉、日本丰田、本田等;

下游目前还未有特别成熟的商业应用

制图:星船知造 

从人形机器人当前的产业链状况来看,虽说马斯克推出的Optimus早已给期盼它正式上市的人们注入了一剂超级强心剂,然而在现实市场中,其上游产业链走的依然是常规工业机器人的路线。

主要硬件部分除了传感器之外,其他三样就是工业机器人的三大核心零部件(控制器、伺服电机和减速机)。由此,也就能发现即便当下人形机器人的热度再大,风头再劲,“人”味再浓,最终采用的却还是工业机器人的那套基本架构。

机器人能够灵活工作的核心之一在于运动的精确控制,其技术难度最高的三大核心零部件分别是控制器、伺服电机和精密减速器,这三者成本的占比分别约为15%、20%、35%。

以2022年9月特斯拉发布的首款人形机器人Optimus为例:

它拥有28个关节驱动器,使全身能够产生200个以上不同角度的动作。

手部有五个手指,配备6个驱动器,拥有人类的灵巧性。

要实现这些功能,上述三大产业链核心零部件的性能必须要达到相当高的要求。

从成本上分析,人形机器人的成本大致可拆分为动力总成系统(占总成本比重的60%)、智能感应系统(占20%)、结构件及其他(占20%)三个部分。

其中,动力总成系统包括电池系统、电驱系统(这里的动力总成定义类似电动车上的“三电系统”),预计这两者分别占到总成本的10%、50%。

综合技术与成本两个方面来看,核心零部件的重要性尤为突出。

一方面,人形机器人技术的本质是3D空间中高维度的感知与运动,高性能的核心零部件是实现感知与运动的基础。

另一方面,控制器、交流伺服电机和精密减速机这三个最重要的核心零部件在成本中所占的比例还是相当之高。

控制器是工业机器人的大脑,对机器人的性能起着决定性的影响。工业机器人控制器主要控制机器人在工作空间中的运动位置、姿态和轨迹,操作顺序及动作的时间等;

伺服电机在自动控制系统中,用作执行元件,把所收到的电信号转换成电动机轴上的角位移或角速度输出。机器人每个关节运动均需靠伺服电机驱动,以实现多自由度的运动;

精密减速器则是连接动力源和执行机构的中间机构,具有匹配转速和传递转矩的作用,也是机器人生产中壁垒最高的零部件,主要包括谐波减速器与RV减速器,但其工作原理和应用场景存在较大区别:

谐波减速器:由波发生器、柔轮和刚轮组成。当波发生器被放入柔轮内圆时,柔轮产生弹性变形弯曲成椭圆状。由于柔轮外侧的刚轮比其多2个齿,导致柔轮长轴部分正好可以与刚轮的齿轮啮合,而短轴部分与刚轮的齿轮呈脱离状态。

RV减速器:由两个减速部构成,在第一减速部中,输入轴的旋转从输入齿轮传递到直齿轮,按齿数比进行减速;在第二减速部中,有一个曲柄轴与直齿轮相连接,在曲柄轴的偏心部分,通过滚动轴承安装RV齿轮,曲柄轴会带动RV减速机做偏心运动。

六轴工业机器人source:遨博机器人

除了以上的三大核心部件外,传感器在人形机器人身上的作用也极其重要。

人形机器人要具备对外界环境的识别能力,实现导航、避障、交互等功能,就需要使用传感器识别物体、测距等。

识别外部环境主要使用摄像头、激光雷达等传感器,其传感器方案和需求场景与自动驾驶存在类似之处,因此价值量较高的自动驾驶类传感器存在新的机遇。

自动驾驶传感器厂商、机器视觉厂商都是人形机器人传感器的参与者。

以三大核心零部件来分类的方式通常更适用于相对粗犷的工业机器人,要想更好地解析人形机器人,五大系统的分法其实更为科学。

感知系统,也即是传感器,如摄像头、麦克风、激光雷达、距离感应器等等,负责收集、传递信息,相当于人的眼、鼻、耳,即人的“五官”;

驱动系统,比如驱动轮子的马达,机械臂上液压动力系统或气动系统,相当于人的“肌肉”;

末端执行系统,既可以是机械手,也可以是机械臂上的一把螺丝刀或者喷枪,用以与外界环境进行物理交互,相当于人的“双手”或“四肢”;

能源供应系统,如电源或电池,是机器人的能量供应中心;

运算系统及软件,将上面所有的系统整合起来,完成指定任务,是机器人的“大脑”。之所以需要用相当大的篇幅来介绍上游产业链中的核心零部件、软件及系统部分,就是因为它们是人形机器人能够身轻如燕地跑跳蹲立,灵活自如地抓取捧举,聪明伶俐地辨物识人,言听计从地信手拈来的关键所在。没有这些部件的缜密配合,外观再逼真的人形机器人也只能算作是绣花枕头,中看不中用。

相对于种类繁多的上游产业链,人形机器人的中游产业链显得简单明了:就是那些能够把这些核心零部件及软件组合在一起,使机器人能够发挥出最大仿人效能的本体制造商。

如本文开头所说,目前人形机器人本体上处于领跑位置的玩家,要么是像特斯拉这样的汽车行业大佬,要么是小米这样的科技企业。工业机器人大佬反而鲜有入局。

以笔者的判断来看,虽然人形机器人脱胎于工业机器人而来,但由于前者在AI领域方面的要求远高于后者,所以反而是高科技企业(尤其是在AI领域有较高建树的)有后发优势。

当然,把特斯拉、丰田、本田归类为汽车企业未免太过片面,这几家都是具备了极强科研开发能力的高科技企业(尤其是特斯拉在全自动驾驶技术FSD上的超强实力,已经让人形机器人和汽车拥有了一样视觉感知:以摄像头输入数据,通过神经网络进行计算)。

03ChatGPT实体化和机器人终极猜想

最近举办的一场人形机器人比赛中,由OpenAI支持的实体机器人公司1x出品的EVE,击败了特斯拉的Optimus机器人。

EVE机器人的部分软件功能由ChatGPT提供支持,也就是说将ChatGPT实体化,应用在现实场景中。

GPT技术在人形机器人中的场景应用打开了新的想象空间,引发了国内资本市场对机器人产业的高度关注。

从业内人士的角度来看,GPT大模型技术应用到人形机器人上,可以为机器人提供“常识”,使其具备理解与推理能力。

在边缘端布局面向机器人作业的中模型,能够较为快速处理机器人的传感信息,结合机器人端部署的运动规划与控制小模型,这样才能构建出“云边端”一体化的智能机器人系统,完成人形机器人的智能闭环。

由此再次巩固了我们的判断——人形机器人产品之间的竞争,归根到底就是一场各个本体厂家在人工智能(AI)赛道上的竞争。

先拼AI研发能力,再比各软硬件之间的协同工作能力,最后大家一起拼成本。

以笔者之见,人形机器人在不久的将来会有三个发展趋势:

一是成本越来越低,进到千家万户是大势所趋。

有鉴于当前人形机器人高昂的零售价格(未量产状态),即便其下游的产业链前景被资本市场长期看好,但至少在当下,能够实现商业化的场景还是屈指可数。

波士顿动力的Atlas单台价值为200万美金,本田Asimo的单台价值250万美元,小米CyberOne单台造价也高达60-70万人民币。基本杜绝了普通人的购买奢望。

不过,假如Optimus在3-5年后通过量产,售价做到2万美元一台,且替代人类完成琐碎复杂的工作(非简单重复型),这样的下游产业链场景无疑会是相当广泛且极具商业价值的。

如马斯克所描绘的,在量产规模达到特斯拉汽车的水平(几百万台),各种更加经济实用的替代品被投放到原来昂贵易损的零部件位置之后,2万美金一台的价格将只是初级目标。毕竟,卡尔·弗里德里希·本茨(KarlFriedrichBenz)发明的世界上第一台内燃机汽车并不足以让它走入到千家万户,量产后的福特T型车才是。

二是智能越来越高,替代复杂繁琐的工作是民心所向。

与工业机器人主要用于取代工厂里简单、重复、危险的劳动定位不同,人形机器人更加适合用作替换与人类有直接接触,相对更为智能、繁琐、贴身的工作,如导购、接待、看护、喂养宠物等。(更多机器人进入下游应用领域,请点击阅读星船知造文章:《万亿级机器人赛道里:为什么它最卷?》)

随着人工智能水平提升,越来越多AI技术被运用到人形机器人身上,机器人越来越“人性化”,与人类的紧密度和契合度也会越来越高。

三是人工智超越人类的智能会是未来的大概率事件。

无论爆火的ChatGPT还是曾击败李世石的AlphaGo都属于弱人工智能。

强人工智能至今尚未出现。但综合来看,人工智能在与人脑的对抗中有以下三条优势:

首先是能耗,人工智能思考和解答问题比人脑消耗的能量低得多。大脑是人体能耗最大的一个器官,为什么人类总是讨厌学习和思考,这是求生本能决定的,为了避免过度思考带来的身体能量过度的消耗。

其次是存储,人会遗忘。但人工智能只要信息输入,就会存储下来。强人工智能还能通过学习关联更多知识和信息。

最后也是最致命的优势就是人工智能的时间效率。这里的效率有两个方面的理解,一是学习效率,相比人类需要娱乐、社交、睡觉等,AI24小时不眠不休的学习和进化,昨天还是婴儿明天就是成人后天就是最强大脑。二是解决问题的效率,人工智能全天候处理问题和工作,未来人工智能会比人类更熟练的使用各类工具,可能你一辈子才精通的操作精密机床的手艺,AI一晚上就学会了。

最后,让我们回到阿西莫夫的机器人三部曲。

《钢穴》里,中年便衣刑警贝莱问机器人丹尼尔,为什么人类那么执着要造出有手有脚有脑袋的机器人?为什么他们多多少少总要做得像个人?

丹尼尔的回答很简单。至今为止一切为人类发明的东西,人型机器人直接就能用。

所以,是的,一切都是基于经济上的考虑。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇