深入探索人工智能机器人的“感知能力”和机器视觉人工智能感知领域包括哪些方面

发表时间：2023-06-27 20:28:54

深入探索人工智能机器人的“感知能力”和机器视觉

我们知道，人工智能的目标之一就是让计算机模拟人类的视觉、听觉、触觉等感知能力，尝试去看、听、读，理解图像、文字、语音等，在此基础上，再让人工智能具有思维能力、行动能力，最终成为跟人类一样的存在。

现在，人工智能机器人的感知能力已经实现了明显的进展。围绕机器视觉，机器人可以实现一系列像图像识别、目标检测和文字识别等功能得到广泛应用;围绕自然语言处理，机器人可以进行基本的语音理解、机器翻译、语音对话等;围绕机器触觉，机器人可以实现灵活的物体感知、抓握推举等各种动作。

单一感知或者说感知能力无法互通，成为当前人工智能机器人无法实现类人化突破的一大原因。也就是说，在单一感知能力和单一工作上，机器人的准确度、稳定性和持久性上面，可能远超人类，但一旦在完成多道工序的复杂任务上面，机器人就远逊于人类的表现。

人工智能机器人想要实现质的发展，就必须在感官能力上面实现多模态的感知融合。现在除了在我们熟知的机器视觉方面，人工智能机器人正在机器触觉和听觉方面实现突破，并且通过视觉、触觉和听觉的感知融合，来大幅提升机器人的感知能力。

对于人工智能机器人，普通人要么抱有很高的不切实际的幻想，担心机器人革命会很快到来，要么对机器人的通用能力保持怀疑，觉得机器人只能在少数场景替代人类。

只有深入到人工智能机器人的“案发现场”，不吹不黑地看下机器人感知能力的发展状况，才能知道当前机器人的感知补全计划的真正进展。

机器视觉和机器触觉

作为地球上最有智慧的生物的人类，感官获取信息的83%来自视觉，11%来自听觉、3.5%来自嗅觉，而1.5%来自触觉，1%来自味觉。

在这五种感官中，如果你不幸地只能保留一种，可能大部分都会保留视觉。要知道我们大脑的近1000亿个神经元，大多数都在处理视觉信息。而在所有的感知信息中，也只有动态的视觉信息是最为复杂的，以至于人类得靠着闭上眼睛主动隔离才能叫“休息”。

正因为视觉信息的重要和复杂，我们在人工智能技术的发展上，除了自然语言处理，那就主要在发展机器视觉了。

这一次人工智能的浪潮也是因为在图像识别上的突破进展才重新兴起。如今，机器视觉已经在工业、安防、日常消费电子、交通等各个领域全面开花，越来越多的摄像头背后都具有了AI的图像识别能力。

对于大多数人工智能机器人而言，除了有视觉能力，还有就是移动行走和抓取能力，这就需要用到触觉的帮助。对于往往只有单一功能的自动化机器人，通常只需设定好固定的参数、移动轨迹和抓取力度，即可不休不眠地完成工作任务。但对于人工智能机器人而言，则要灵活适应各种不同材质、不同形状和软硬度的物体，这个时候就既需要机器视觉的识别能力，也需要对于物体的触觉判断。

之前，大部分机器人的抓握解决方案都是单靠机器人的视觉感知。主要的解决办法就是通过数据库进行图像匹配，将目标物体的状态和自身动作进行实时监测，最终调整合适的抓取算法，来完成物体的抓取，但是有关抓握的接触力度，则是机器视觉无法代替的，这样机器还需要触觉上的感知数据。

就如同人类一样，我们在尝试抓取物体时，会组合运用各种感知能力，最基础的就是视觉和触觉。由于视觉会因为光线、阴影、视线遮挡等因素，造成误判，我们通常会更有效地利用皮肤的触觉，来获得对于物体完整的感知。

人体的触觉感知也是一个非常复杂的生物电信号反应的过程，那么要赋予机器以触觉能力也需要经过非常复杂的处理。模拟人体的触觉反应，机器人的触觉传感器也必须能够将物体的质地、光滑程度以及物体形态进行数字模拟处理，将压力和振动信号变成可以计算机处理的数据信号，从而进行触觉算法的训练。

机器触觉的难点在于对于触觉传感器获得的抓握等微小振动的识别，要能够识别抓握物体发生的滑动振动和物体与其他物体摩擦发生的振动，还要能够区分不同物体的振动，这些是研究者们重点攻克的难点。

实现突破的方法就是，我们需要更好的触觉感应器，必须做到比现有的压力传感器更好的触觉传感器，能够嵌入到柔性材料当中，实现像人类皮肤一样的人造皮肤。

最近新加坡国立大学的两名研究人员就开发出一种人造皮肤，搭载在一个能够模拟生物神经网络人造大脑，通过英特尔Loihi的神经拟态处理器上运行。在这一技术基础上，研究团队通过了机械手臂读取盲文的测试，同时借助视觉传感器和这一人造皮肤，机械手臂的抓取能力也得到明显提高。未来基于这种触觉能力的机器人，可以在物品分拣过程中做到更加灵活、细致和安全，在护理行业上，可以对人类进行更好的看护和帮助，在外科手术机器人上，更好的完成手术的自动化。

视觉和触觉的结合，已经可以为机器人感知提升提供了可能，那么听觉能力的融合，会带来哪些效果呢？

机器听觉的补全

这里的机器听觉，不是特指对于人类语音的识别。这类语音识别已经在各类消费级的智能音箱等领域得到广泛应用。这里的机器听觉是指通过声音传感器对于一切物体发出声音的判断。

相比较机器视觉对于物体的判断的简单直接，机器听觉确实是人们一直忽略的领域。在我们的日常生活场景中，我们其实除了用视觉来判断物体的远近、颜色和大小之外，我们通常也会用到听觉来识别物体的距离远近、质地，推测事件的发生。这一点对于有视力障碍的人来说尤为重要。

最近，卡内基·梅隆大学（CMU）的研究人员发现，通过增加听觉感知，人工智能机器人的感知能力可以得到显著的提高。

这一次CMU机器人研究所首次对声音和机器人动作之间的相互作用进行大规模研究。研究人员发现，不同物体发出的声音可以帮助机器人区分物体，比如金属螺丝刀和金属扳手。机器听觉还可以帮助机器人确定哪种类型的动作会产生声音，并帮助它们利用声音来预测新物体的物理属性。经过测试，机器人通过听觉在对物体进行分类的准确率能达到76%。

为了实现这一测试，研究者通过60个常见物体在一个机器人的托盘上进行滑动、滚动和撞击，记录下15000个交互的视频和音频，形成了一个大数据集。

此外，研究者还可以通过摇晃容器或者搅拌物质的声音来预估颗粒状物质的数量和流量，比如对大米和意大利面进行评估。显然，通过声音的对比，可以预测很多通过视觉无法预测的物理属性。

机器听觉无法区分一个红色方块和一个绿色方块，但他可以在看不见的情况下的撞击声，来区分出两个不同物体。而这正是机器听觉的有用性所在。最终对于声音识别物体的效果，就连研究者也都非常惊讶。

在机器听觉的应用方面，研究者首先想到的是在未来机器人的装备仪器上加一个手杖，通过手杖敲击物体来识别物体，这倒是一个有趣的画面。但可以想见，在未来智能安防、管道线路检测以及身体检测等方面，机器听觉可以发挥更大的作用。另外，对于识别最有意义的人类声音，比如音乐、情感等声音内容上面，这些应用就更加广泛。

机器人多模态感知融合的应用前景

正如感觉器官对于人类的重要性而言，感知系统对于机器人的重要性同样至关重要。

要知道，我们人类其实是很少只用一个感官去获取信息，也很少只用一个感官去指导行动。就好像在一场“攀爬-赛跑-游泳”的三合一比赛中，我们在单一项目中可能无法战胜猴子、豹子和海豚，但是在整场比赛中，人类就可以同时完成这三个项目。我们人类在感知事物的时候通常也是多感官同时发挥作用，相互协调和多次验证来加深对于外界物体的感知认识。更为复杂的事，我们甚至还要借助记忆、推理等理性认知能力来对感知事物进行加工，从而得到更为复杂的认知。

相比较于人类的多感官应用，机器人的单一感知或者简单组合的感知能力，又因为目前机器人的感知识别模式仍然是基于算法模型对于感知数据的分析和数据对比，因此难以产生更为复杂的推理知识，因此是机器人在认知的复杂度上稍逊于人类，但在识别物体的准确度和规模上就会远超人类。

现在，多模态感知融合的推进，将使得机器人在认知复杂度上面逐渐接近人类的能力。未来的机器人面对照明和遮挡、噪声和混响、运动和相似等复杂交互场景，将会变得更加游刃有余，从而产生各种收益明显的现实应用。

多模态感知融合可能应用到的领域，包括：

特殊化的精密操作领域。比如高难度外科手术领域，外科手术机器人可以通过对目标的精确观察和相关组织的分离、固定，进行比外科医生更精准的手术操作。

高危或者高难度的机器人作业。比如危险物品的搬运、拆除，比如普通人无法进入的管线等高难度区域检测检修，地下墓穴或海底的物品的搬运、打捞，通过机器听觉对密封空间的声音探测等。

像在安防、灾害救援、应急处理等需要灵活处理的场景，都可以逐渐交由多感知系统的机器人处理，或者人机协同远程处理。

此外，由于机器人感知融合能力的提高，机器人对于综合感知数据的训练，可以更好地理解人类本身的复杂性，尤其是可以建立更为复杂的情感计算模型，能够更好地理解人类在表情、声音、皮肤温度、肢体动作等方面传递出的情感信号，为更高级的人机互动提供新的可能。

目前来看，人工智能机器人仍然是一个复杂的系统工程，想要实现机器人的多模态感知融合，还需要对传感器性能、算法协同、多模态任务、环境测试等多方面进行综合研究。

这个过程必定是非常艰难的，但取得成果之后的前途必定是一片光明的。在我们期待人类与机器人和谐生活的未来，我们自然更期待这些机器人不再是一台冷冰冰的机器。

人工智能如何“向善”

一段时间以来，以ChatGPT为代表的人工智能大模型搅动了全球人工智能技术发展的浪潮。从写代码到讲故事，从撰写文章到自动制作数据表格……人工智能正在给人类的工作、学习、生活带来诸多变化。

我们距离“无所不能”的通用人工智能还有多远？人工智能的发展带来哪些安全隐患和挑战？近日召开的2023北京智源大会上，来自全球的人工智能专家学者围绕相关话题展开探讨。

通用人工智能路途尚远

“想象一下，未来10年，通用人工智能(AGI)几乎在每一个领域都超过人类的专业知识，最终可能超过所有大型公司的总体生产力，这将提高人们的生活水平。”OpenAI首席执行官山姆·阿尔特曼展现了一幅人工智能的未来图景。

所谓AGI，是指能够像人类一样在各种领域进行智能任务的人工智能系统。这与目前人工智能应用只聚焦于特定任务或领域(如图像识别、语音识别、自然语言处理等)不同，对人工智能技术提出了更高要求。

“通用人工智能可以比人类更好、更快地学习和执行任务，包括人类无法处理的任务。由于机器在速度、内存、通信和带宽方面的巨大优势，未来通用人工智能几乎在所有领域都将远超人类的能力。”美国加州大学伯克利分校计算机科学教授斯图尔特·罗素说。

尽管人工智能已经有了“超越”人类的“时间表”，但在很多专家看来，目前的人工智能距离AGI还有不小的距离。

罗素认为，当下火热的大语言模型并不“理解世界”，只是通用人工智能的一块“拼图”——“我们并不了解如何将它与其他部分连接起来，甚至还有一些缺失的拼图还没有找到。”

北京智源人工智能研究院院长黄铁军指出，要实现通用人工智能，有3条技术路线：第一是大模型，通过海量高质量数据，让人工智能具备智能涌现能力；第二是具身智能，通过强化学习方法，训练出具身模型；第三是类脑智能，让机器达到或类似于人脑能力。

对于人工智能的发展，图灵奖得主、纽约大学教授杨立昆提出了“世界模型”的概念——人工智能系统可以通过这一模型理解世界的运转方式，并以最优化、成本最小的方式来行动。

加强安全治理领域国际合作

根据预测，到2030年，人工智能将创造15.7万亿美元的经济价值。人工智能为经济发展提供了重要机遇，但也引发了安全性方面的担忧和争议。

图灵奖得主、多伦多大学教授杰弗里·辛顿认为，目前的人工智能已经可以通过学习，掌握“欺骗”人类的方式。“一旦人工智能具备了‘欺骗’的能力，就有了‘控制’人类的能力。这样的超级智能可能会比预想中发生得更快。”

在通用人工智能时代到来之前，人工智能的安全风险主要来自于“人”。“我们不应该假设机器是公正的，因为机器可能会试图改变人类的行为。更准确地说，是机器的所有者想要改变其他人的行为。”图灵奖得主、中国科学院院士姚期智说，当前人工智能的发展处于重要窗口期，各国应共同合作，搭建人工智能的治理结构。

随着人工智能的本事越来越大，人工智能的“对齐”问题浮上水面。所谓“对齐”，即人工智能系统的目标要和人类的价值观与利益“对齐”，保持一致。

如何让人工智能与人类“对齐”？阿尔特曼认为，人们应当负责任地将人工智能应用到世界中，重视和管理好安全风险。他建议在人工智能技术研发过程中建立平等、统一的国际规范和标准，并通过国际合作，以可验证的方式建立人工智能系统安全开发的信任体系。

黄铁军认为，人工智能虽然会产生预料之外的新能力，但这并不意味着人类无法对人工智能进行管理。“如何管理人工智能这样一个创造性极强的系统，社会学、历史学等学科都能提供很好的借鉴意义。”

今年2月，中国在《全球安全倡议概念文件》中提出加强人工智能等新兴科技领域国际安全治理，预防和管控潜在安全风险。在此次智源大会上，专家学者积极评价中国在推动人工智能国际治理上的贡献。

阿尔特曼说，中国在人工智能领域拥有大量优秀的人才和产品系统，在人工智能的安全方面应发挥关键作用。

麻省理工学院人工智能与基础交互研究中心教授马克斯·泰格马克表示，中国在塑造全球人工智能议程上的能力日益增长，可以在人工智能安全治理领域发挥领导作用。

推动大模型共建共享

当下，全球人工智能领域的科技竞赛日趋白热化。2023中关村论坛上发布的《中国人工智能大模型地图研究报告》显示，全国已发布了79个参数在10亿规模以上的人工智能大模型。

从全球来看，中国和美国已发布的大模型数量超过全球总数的80%。中国自2020年起进入大模型快速发展期，在大模型方面已建立起涵盖理论方法和软硬件技术的体系化研发能力，形成了紧跟世界前沿的大模型技术群，涌现出多个具有行业影响力的预训练大模型。

在此次大会上，全面开源的智源“悟道3.0”系列大模型及算法正式发布。据了解，“悟道3.0”涵盖了一系列领先成果，包括“悟道·天鹰”(Aquila)语言大模型系列、天秤(FlagEval)开源大模型评测体系与开放平台，“悟道·视界”视觉大模型系列以及一系列多模态模型成果等。

黄铁军认为，人工智能大模型有3个特点：一是规模大；二是有“涌现性”，即能够产生预料之外的新能力；三是通用性，不限于解决专门问题或者专门领域。他表示，大模型不是任何一家机构或者一家公司垄断的技术，应当共建共享，推出一套智力社会所需的基础的算法体系。

（来源：《人民日报海外版》；编辑：高逸昕；审核：林超）

人工智能带来教育领域的变革：个性化学习成为可能

站长之家(ChinaZ.com)6月26日消息:AI已经开始在教育领域产生影响，微软联合创始人比尔·盖茨表示，AI聊天机器人可以在18个月内教会孩子阅读，而不是几年。年轻一代身边都是数字工具，专家们认为，教室中充斥着AI只是个时间问题。

虽然将AI工具引入课堂存在风险，如学生作弊的可能性增加以及对教师（尤其是大学教授）的工作产生冲击，但早期风险投资公司Conviction的创始人兼管理合伙人SarahGuo表示，这些反应提出了一个合理但狭隘的观点。

「从更广泛的背景来看，（AI）将极大地提高教育效果，大幅降低成本，使教育更加公平，为人们提供全球机会，提高生产力和知识水平，」她说。

人工智能用于常规学习，教师提供个性化课程

AI，特别是由大型语言模型支持的聊天机器人，可以帮助从小学教育到认证课程的学生通过庞大的材料自我引导，并根据特定的学习风格量身定制他们的教育。

Accredible是一个数字认证平台，与谷歌、哈佛大学等客户合作，其首席执行官兼联合创始人DannyKing表示，目前很多学生没有得到适合他们需求的个性化学习经历，因为没有足够的教师来满足这一点。他补充说，现有的教师往往工作过度，没有足够的时间来关注每个学生。

AI可以填补这个空白，通过将教师从重复或例行的学习中解放出来，例如让学生从教科书中复制，而教师在白板上写术语，教师可以专注于对学生生活有影响的内容。

「许多机械式教学可以被AI接管和委派给技术，」King说。随着AI的兴起，教师可以从机械式教学中解放出来，转而成为更加专业的人才，他们可以专注于帮助学生解决特定问题和概念，他补充道。

如果学生主要通过AI支持的方法与学习材料互动，一个教师可以同时监管多个教室，因为学生不需要一直有教师站在他们面前，King说。他补充说，「教师不再需要充当知识的传播者，因为AI可以自动化这一过程。」

替代昂贵的个性化辅导

由于聊天机器人和AI支持的程序不断从提供的信息中学习，教学不仅可以个性化地适应学生的需求，而且这些信息可以为教师提供更多有关学生的数据，并即时生成教材。

「教学非常耗时，想想回答学生问题、给予具体反馈以及展示他们如何提高答案，」Guo说。「有了AI，你可以快速起草不同形式的教材，并在几分钟内生成测验问题，而不是费尽心思地劳作。」

AI还可以帮助教师利用现有的知识和内容，以便重新利用并大幅减少他们的工作量，Guo表示。

此外，一个教师可以给需要帮助的学生提供专注而有影响力的帮助，因为AI将能够告诉教育者哪些领域或主题学生最需要帮助，King说。

尽管个性化辅导已经存在了几十年，并且可以产生非常显著的效果，但Guo表示「它只是过于昂贵」。

随着AI在课堂中的应用，个性化辅导使教育更加公平，并减少了被落下的学生人数，Guo说，「我们可以利用AI提高获得优质教育的机会，并放大教师所做的出色工作。」

（举报）

深入探索人工智能机器人的“感知能力”和机器视觉 人工智能感知领域包括哪些方面