教人工智能以“我”的视角看世界
要令人工智能系统如同人类一样与世界交互,人工智能领域需要发展出一种全新的第一人称感知范式。这意味着人工智能在实时运动、交互时,要以第一人称视角理解日常活动。世界是多维的,生活中同样的景物在不同的视角下会呈现出不同的形态。若要让人工智能更像人类,就要让其视角更接近人。从人类的角度观察环境,人工智能或许会看到一个新的天地。近日,由脸谱(Facebook)和9个国家的13所大学及实验室组成的学术联盟宣布,11月将开源让人工智能拥有以第一人称视角与世界进行交互能力的Ego4D(Egocentric4DPerception)项目。这个项目包含超过3025小时的第一人称视频,涉及来自73个城市的700多名参与者的日常生活。这些视频将有助于使人工智能认知世界的方式更加趋向于人类。那么,目前人工智能主要通过哪种视角认知世界,不同视角对于人工智能认知环境会产生哪些影响?人工智能感知环境、认识世界主要通过哪些技术?想要认知世界的方式更像人类,人工智能还需突破哪些瓶颈?人工智能通常采用第三人称视角“要令人工智能系统如同人类一样与世界交互,人工智能领域需要发展出一种全新的第一人称感知范式。这意味着人工智能在实时运动、交互时,要以第一人称视角理解日常活动。”脸谱首席研究科学家克里斯汀·格劳曼曾言。今天的计算机视觉系统大多是利用数百万张以第三人称视角拍摄的照片和视频进行学习的。“为了构建新的感知范式,我们需要教会人工智能像人类一样,从第一人称角度即‘我’的视角,沉浸式观察理解世界,并与之交互,这种认知方式也可以称为自我中心认知。”10月26日,远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲在接受科技日报记者采访时指出。如何理解人工智能的第一人称和第三人称视角?谭茗洲解释道:“第一人称视角代入感很强,比如在玩游戏时,你如身临其境,看到的游戏画面就是你真实世界看到的画面。第三人称视角又叫作上帝视角,仿佛你一直飘在角色身边一样,如影随形,可以看到角色本身及周围的情况。例如,第三人称视角下藏在掩体后可以看到掩体前面的情况;而在第一人称视角下,囿于视角范围,在掩体后则只能看到掩体本身。”“再如自动驾驶,其视觉系统如果只从旁观者的(如车的角度)收集数据,即便通过数十万个基于旁观视角看到的车辆行进图像或视频进行训练,人工智能可能依然不知道如何去做,很难达到现在的自动驾驶水平。因为这种旁观者的视角与坐在车内方向盘前的视角很不一样,第一人称视角下,真人驾驶员做出的反应还包括点刹、猛刹等行为,这些数据是从旁观者视角无法搜集的。”谭茗洲进一步说。“以前人工智能界很少以第一人称视角收集数据集,这个项目弥补了人工智能视角体系的短板。未来AR、VR的发展十分重要,如果人工智能可以从‘我’出发,以第一人称视角来观察理解世界,将开启人类和人工智能沉浸式体验的新时代。”谭茗洲指出。克里斯汀·格劳曼也表示:“下一代人工智能系统需要从一种完全不同的数据中学习,即从事件中心视觉而不是边线视觉展示世界的视频中学习。”建立真实世界数据集目前让人工智能感知环境、认识世界,建立类人化的认知体系主要通过什么“抓手”展开?业内专家指出,历史证明,基准和数据集是人工智能行业创新的关键催化剂。今天,几乎可以识别图像中任何对象的计算机视觉系统都是建立在数据集和基准之上的,数据集和基准为研究人员提供了一个研究真实世界图像的实验台。“脸谱日前发布的这个项目,其实本身就是建立一个数据集,旨在训练人工智能模型更像人类。其开发了5个围绕第一人称视觉体验的基准挑战,即把第一人称视角拆解成5个目标,开展相应的训练集竞赛。”谭茗洲指出。Ego4D的5个基准是:情景记忆,什么时候发生?预测,我接下来可能会做什么?手—物交互,我在做什么?视听日记,谁在什么时候说了什么?社交互动,谁在和谁互动?谭茗洲强调,上述基准测试将促进开发人工智能助手所必需的构建模块的研究。人工智能助手不仅可以理解现实世界中的指令并与之交互,同时可以在元宇宙中实现对元宇宙中指令的理解和交互。为了建立这个数据集,与脸谱合作的大学团队向研究参与者分发了现成的头戴式摄像头和其他可穿戴传感器,以便捕获第一人称的、未经编辑的日常生活视频。项目的重点是参与者从日常场景中捕获视频,比如购物、烹饪、边玩游戏边聊天,以及与家人和朋友进行其他团体活动等。视频采集了摄像头佩戴者在特定环境中选择注视的对象,以及摄像头佩戴者如何从自我中心角度与人和物互动。到目前为止,摄像头佩戴者已经执行了数百项活动,并与数百种不同的对象进行交互,项目的所有数据都是公开的。“脸谱这项研究能够更快地推动人工智能领域自我中心认知研究的进步。这将对我们未来的生活、工作和娱乐方式产生积极影响。”谭茗洲表示。让人工智能认知能力更像人人工智能发展的终极目标是让人类受益,让我们能够应对现实世界中日益复杂的挑战。想象一下,通过AR设备能够在琴、棋、书、画课堂中准确显示如何弹琴、下棋、握笔和勾勒;形象生动地指导家庭主妇根据食谱烘焙烧烤、烹饪菜肴;健忘的老人借以眼前全息图的帮助回忆过去……脸谱强调,希望通过Ego4D项目为学术界和行业专家开辟一条全新的道路,帮助构建更智能、更灵活和更具交互性的计算机视觉系统。随着人工智能越加深入理解人类的日常生活方式,相信将这个项目能以前所未有的方式对人工智能的体验进行情境化和个性化。然而,目前的研究还只是触及自我中心认知的皮毛。如何才能让人工智能的认知能力更像人类?“首先是注意力,人工智能的注意力机制更接近直觉,而人类的注意力是有选择性的。目前来说,大部分人工智能注意力机制,是在训练过程中重复告诉人工智能应该注意哪些地方,哪些东西是有关联的。未来也许可以让参与试验的人戴上特殊的可以捕捉眼球关注点的装置,来进一步收集相关数据。”谭茗洲指出。“第二,还需要以事件和行为的关联为研究中心,定义人工智能的行为。一件事情的发生包括多个行为,要用人类反馈的方式训练人工智能系统,使人工智能的行为与我们的意图一致。”谭茗洲进一步表示。谭茗洲强调:“此外,听觉和视觉、语言和行为等之间还需要配合、响应、联动,这就要构建多模态交互模型,纵深研究视角为何会聚焦投向并与意图识别相结合,形成与行为之间联动的机制等。”(记者华凌)人工智能的起源和人工智能发展历程
1.1图灵测试测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。多次测试(一般为5min之内),如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。
1.2达特茅斯会议1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,
约翰·麦卡锡(JohnMcCarthy)
马文·闵斯基(MarvinMinsky,人工智能与认知学专家)
克劳德·香农(ClaudeShannon,信息论的创始人)
艾伦·纽厄尔(AllenNewell,计算机科学家)
赫伯特·西蒙(HerbertSimon,诺贝尔经济学奖得主)等科学家正聚在一起,讨论着一个完全不食人间烟火的主题:用机器来模仿人类学习以及其他方面的智能。
会议足足开了两个月的时间,虽然大家没有达成普遍的共识,但是却为会议讨论的内容起了一个名字:“人工智能”,因此,1956年也就成为了人工智能元年。
2、人工智能发展历程人工智能充满未知的探索道路曲折起伏。如何描述人工智能自1956年以来60余年的发展历程,学术界可谓仁者见仁、智者见智。我们将人工智能的发展历程划分为以下6个阶段:
第一是起步发展期:1956年—20世纪60年代初。
人工智能概念提出后,相继取得了一批令人瞩目的研究成果,如机器定理证明、跳棋程序等,掀起人工智能发展的第一个高潮。
第二是反思发展期:20世纪60年代—70年代初。
人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,人们开始尝试更具挑战性的任务,并提出了一些不切实际的研发目标。然而,接二连三的失败和预期目标的落空(例如,无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等),使人工智能的发展走入低谷。
第三是应用发展期:20世纪70年代初—80年代中。
20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功,推动人工智能走入应用发展的新高潮。
第四是低迷发展期:20世纪80年代中—90年代中。
随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。
第五是稳步发展期:20世纪90年代中—2010年。
由于网络技术特别是互联网技术的发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。1997年国际商业机器公司(简称IBM)深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫,2008年IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。
第六是蓬勃发展期:2011年至今。
随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破,迎来爆发式增长的新高潮。
猜你喜欢:
人工智能之个性化推荐之路
深度相机是什么?深度相机常见技术
如何解决分类中解决类别不平衡问题?
语言模型-BERT:bert算法介绍
传智教育人工智能培训课程
人工智能导论复习
人工智能导论复习题人工智能导论复习题
第一章绪论1.智能是()和()的总和。
正确答案:(1)知识,智力
2.()是一切智能行为的基础正确答案:(1)知识
3.()是获取知识并应用知识求解问题的能力。正确答案:(1)智力
4.智能的特征有()、()、()、()。正确答案:(1)具有感知能力(2)具有记忆与思维能力(3)具有学习能力(4)具有行为能力
5.(填空题)人工智能的长期目标是()正确答案:(1)实现人类水平的机器智能
6.人工智能的主要研究内容有()、()、()、()、()正确答案:(1)知识表示(2)机器感知(3)机器思维(4)机器学习(5)机器行为
7.人工智能的定义是什么?正确答案:人工智能主要研究用人工的方法和技术,模拟、延伸和扩展人的智能,实现机器智能。
8.简述“图灵测试”?正确答案:让人与机器分别在两个房间里,两者之间可以通话,但彼此看不到对方,如果通过对话,人的一方不能分辨对方是人还是机器,那么就可以认为对方的那台机器达到了人类智能的水平。
第二章知识表示与知识图谱1.造成知识具有不确定性的原因主要有()、()、()、()。正确答案:随机性模糊性经验不完全性
2.知识的特性有()、()、()。正确答案:(1)相对正确性(2)不确定性(3)可表示性与可利用性
3.在人工智能领域内显式的知识表示方法主要有()、()、()、()。正确答案:(1)一阶谓词逻辑表示法(2)产生式表示法(3)语义网络表示法(4)框架表示法
4.谓词的一般形式是()。正确答案:(1)P(x1,x2,...,xn)
5.一个产生式系统由()、()和()三部分组成正确答案:(1)规则库(2)推理机(3)综合数据库
6.位于量词后面的单个谓词或者用括弧括起来的谓词公式称为量词的(),域内与量词中同名的变元称为(),不受约束的变元称为()。正确答案:(1)辖域(2)约束变元(3)自由变元
7.在谓词公式中,连接词的优先级别从高到低排列是(),(),(),(),()。正确答案:(1)¬(2)∧(3)∨(4)→(5)↔
8.对于谓词公式P,如果至少存在一个解释使得P在此解释下的真值为T,则称P是()。正确答案:(1)可满足的
9.用谓词公式表示知识的一般步骤?正确答案:1.定义谓词及个体,确定每个谓词及个体的确切含义。2.根据所要表达的事物或概念,为每个谓词中的变元赋以特定的值。3.根据所要表达的知识的语义,用适当的连接符将各个谓词连接起来形成谓词公式。
10.知识图谱三元组的基本形式主要分为两种形式:()、()。正确答案:(1)(实体1-关系-实体2)(2)(实体-属性-属性值)
11.知识图谱在逻辑上分为()和()。正确答案:(1)模式层(2)数据层
12.对于事实性知识,由()和()连接形成的谓词公式表示。正确答案:(1)合取符号(2)析取符号
13.在产生式系统中,推理机的工作是()、()、()、()。正确答案:(1)推理(2)冲突消解(3)执行规则(4)检查推理终止条件
14.利用哪些规则可以得到谓词公式?正确答案:1、单个谓词是谓词公式,称为原子谓词公式。2、若A是谓词公式,则¬A也是谓词公式。3、若A,B都是谓词公式,则A∧B,AVB,A→B,A↔B也都是谓词公式4、若A是谓词公式,则(x)A,(∃x)A也都是谓词公式。5、有限步应用1~4生成的公式也是谓词公式。
第三章确定性推理方法1.构成推理的两个基本要素是()和()。正确答案:(1)已知事实(证据)(2)知识
2.若从推出结论的途径来划分,推理可分为()、()和()。正确答案:(1)演绎推理(2)归纳推理(3)默认推理
3.若按推理中是否运用与推理有关的启发性知识来划分,推理可分为()和()。正确答案:(1)启发式推理(2)非启发式推理
4.推理的方向分为(),(),()和()。正确答案:(1)正向推理(2)逆向推理(3)混合推理(4)双向推理
5.正向推理是以()作为出发点的一种推理。正确答案:(1)已知事实
6.逆向推理是以()作为出发点的一种推理。正确答案:(1)某个假设目标
7.混合推理可用于()、()和()三种情况正确答案:(1)已知的事实不充分(2)正向推理推出的结论可信度不高(3)希望得到更多的结论
8.冲突消解策略的基本思想是()。正确答案:(1)对知识进行排序
9.常用的冲突消解策略有()、()、()和()。正确答案:(1)按规则的针对性排序(2)按已知事实的新鲜性排序(3)按匹配度排序(4)按条件个数排序
10.基本的自然演绎推理是()、()、()和()等。正确答案:(1)P规则(2)T规则(3)假言推理(4)拒取式推理
11.推理的定义?正确答案:从初始证据出发,按某种策略不断运用知识库中的已知知识,逐步推出结论的过程称为推理。
12.双向推理的基本思想?我的答案:1、根据已知事实进行正向推理,但并不推到最终目标;2、从某个假设出发进行逆向推理,但并不推至原始事实,而是让它们在中途相遇。3、当正向推理所得到的中间结论恰好是逆向推理此时所要求的证据,这时推理就可结束,逆向推理是所做的假设就是推理的最终结论。
13.自然演绎推理的概念?我的答案:从一组已知为真的事实出发,运用经典逻辑的推理规则推出结论的过程。
14.P规则、T规则、CP规则的概念?我的答案:P规则:在推理的任何步骤上都可引入前提。T规则:在推理时,如果前面步骤中有一个或多个永真蕴含公式S,则可把S引入推理过程中。CP规则:如果能从任意引入的命题R和前提集合中推出S,则可从前提集合推出R→S。
15.任何文字的()称为子句。正确答案:(1)析取式
16.谓词公式不可满足的充要条件是()正确答案:(1)其子句集不可满足
17.谓词公式化为子句集的步骤是什么?我的答案:1、消去谓词公式中的“→”和“⟷”符号2、把否定符号移到紧靠谓词的位置上3、变量标准化4、消去存在量词5、化为前束形6、化为Skolem标准形7、略去全称量词8、消去合取词,把母式用子句集表示9、子句变量标准化,即使每个子句中的变量符号不同
18.鲁滨逊归结原理就的基本方法是什么?我的答案:检查子句集S中是否包含空子句,若包含,则S不可满足。若不包含,在S中选择合适的子句进行归结,一旦归结出空子句,就说明S是不可满足的。
19.归结反演的定义是什么?其一般步骤是什么?我的答案:定义:应用归结原理证明定理的过程步骤:(1)将已知前提表示为谓词公式F。(2)将待证明的结论表示为谓词公式Q,并否定得到﹁Q。(3)把谓词公式集{F,﹁Q}化为子句集S。(4)应用归结原理对子句集S中的子句进行归结,并把每次归结得到的归结式都并入到S中。如此反复进行,若出现了空子句,则停止归结,此时就证明了Q为真。
20.应用归结原理求解问题的步骤是什么?我的答案:(1)已知前提F用谓词公式表示,并化为子句集S;(2)把待求解的问题Q用谓词公式表示,并否定Q,再与答案谓词ANSWER构成析取式(﹁Q∨ANSWER);(3)把(﹁Q∨ANSWER)化为子句集,并入到子句集S中,得到子句集S’;(4)对S’应用归结原理进行归结;(5)若得到归结式ANSWER,则答案就在ANSWER中。
第四章不确定性推理方法1.在不确定推理中,“不确定性”一般分为:()和()。正确答案:(1)知识的不确定性(2)证据的不确定性
2.不确定推理需要解决的重要问题是()、()、()、()、和()。正确答案:(1)不确定性的表示与度量(2)不确定性匹配算法及阈值(3)组合证据不确定性的算法(4)不确定性的传递算法(5)结论不确定性的合成
3.在CF模型中,知识是用产生式规则表示的,其一般形式为()正确答案:(1)IFETHENH(CF(H,E))
4.CF(H,E)在[-1,1]上取值,CF(H,E)>0表示();CF(H,E)0表示();CF(E)