两大巨头同时看好!人工智能再添新名词,AI下一个浪潮
5月18日,机器人概念股掀涨停潮,截至发稿丰立智能、优德精密20cm涨停,机器人、昊志机电、江苏雷利、绿的谐波涨超10%,南方精工、远大智能、华工科技等纷纷涨停
消息面上,在ITFWorld2023半导体大会上,黄仁勋表示,人工智能的下一个浪潮将是具身智能(embodiedAI),即能理解、推理、并与物理世界互动的智能系统。
除此之外,在在5月16日召开的特斯拉股东大会上,马斯克表示,人形机器人会是今后特斯拉主要的长期价值来源。他花了大量篇幅阐述了机器人并且推测,人形机器人Optimus需求将达100亿台,远远超过汽车需求,可能是百亿美元级别的。
能被特斯拉和英伟达两大巨头同时看好,人型机器人板块确实值得高看一眼。
此外,北京发布促进通用人工智能发展若干措施。其中也有具身智能的表述:推动具身智能系统研究及应用,突破机器人在开放环境、泛化场景、连续任务等复杂条件下的感知、认知、决策技术。
人工智能再添新名词
“具身智能”最初可追溯到1950年,当时图灵在论文《ComputingMachineryandIntelligence》中首次提出了这一概念。指一种具备自主决策和行动能力的机器智能,它可以像人类一样感知和理解环境,通过自主学习和适应性行为来完成任务。
具体点说,像人一样能与环境交互感知,自主规划、决策、行动、执行能力的机器人/仿真人(指虚拟环境中)是AI的终极形态,我们暂且称之为具身智能机器人。它的实现包含了人工智能领域内诸多的技术,例如计算机视觉、自然语言处理、机器人学等。
正如斯坦福大学计算机科学教授李飞飞所说,“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”
简单来说,具身智能机器人可以听懂人类语言并完成相应任务。理想很丰满,现实科学止步于“听懂人类语言”,人们依然严重依赖手写代码来实现对机器人的控制。
英伟达机器人研究高级主管、华盛顿大学教授DieterFox指出,机器人研究的一个关键目标是构建在现实世界中对人类有帮助的机器人。但要做到这一点,它们必须首先接触并学习如何与人类交互。
AI下一个浪潮
巨头纷纷加码人形机器人赛道,继特斯拉去年推出Optimus原型机,近期包括OpenAI创业基金领投挪威机器人制造商1XTechnologiesA2轮融资,chatGPT也将助力提升人形机器人感知能力,加速产业化。
而GPT等大模型的出现提供了新思路——已有不少研究者尝试将多模态的大语言模型与机器人结合起来,通过将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理解,帮助机器人处理具身推理任务。
谷歌、微软的AI团队走在前列,试图以大模型为机器人注入灵魂。
3月8日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型——PaLM-E,参数量高达5620亿(GPT-3的参数量为1750亿)。作为一种多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练。谷歌研究人员计划探索PaLM-E在现实世界场景中的更多应用,例如家庭自动化或工业机器人。他们希望PaLM-E能够激发更多关于多模态推理和具身AI的研究。
在最近的一项研究中,微软团队在探索如何将OpenA研发的ChatGPT扩展到机器人领域,从而让我们用语言直观控制如机械臂、无人机、家庭辅助机器人等多个平台。研究人员展示了多个ChatGPT解决机器人难题的示例,以及在操作、空中和导航领域的复杂机器人部署。
很明显,谷歌和微软对具身AI有高度相似的期许:人类操作机器人,不需要学习复杂的编程语言或机器人系统的细节,“言出”(向机器人口述/比划需求)即“法随”(机器人完成任务),达到“得心应手,如臂使指”的境界。
所以,ChatGPT等大语言模型对实现具身智能中便利的人机交互有着至关重要的作用。
如果说chatGPT为代表的大模型开启了通用AI新时代,那么多模态的、具身的、主动交互式的人工智能体一定是这一时代的必由之路。