博舍

人工智能的伦理挑战 人工智能不能思考的原因有哪些

人工智能的伦理挑战

原标题:人工智能的伦理挑战

控制论之父维纳在他的名著《人有人的用处》中曾在谈到自动化技术和智能机器之后,得出了一个危言耸听的结论:“这些机器的趋势是要在所有层面上取代人类,而非只是用机器能源和力量取代人类的能源和力量。很显然,这种新的取代将对我们的生活产生深远影响。”维纳的这句谶语,在今天未必成为现实,但已经成为诸多文学和影视作品中的题材。《银翼杀手》《机械公敌》《西部世界》等电影以人工智能反抗和超越人类为题材,机器人向乞讨的人类施舍的画作登上《纽约客》杂志2017年10月23日的封面……人们越来越倾向于讨论人工智能究竟在何时会形成属于自己的意识,并超越人类,让人类沦为它们的奴仆。

维纳的激进言辞和今天普通人对人工智能的担心有夸张的成分,但人工智能技术的飞速发展的确给未来带来了一系列挑战。其中,人工智能发展最大的问题,不是技术上的瓶颈,而是人工智能与人类的关系问题,这催生了人工智能的伦理学和跨人类主义的伦理学问题。准确来说,这种伦理学已经与传统的伦理学旨趣发生了较大的偏移,其原因在于,人工智能的伦理学讨论的不再是人与人之间的关系,也不是与自然界的既定事实(如动物,生态)之间的关系,而是人类与自己所发明的一种产品构成的关联,由于这种特殊的产品――根据未来学家库兹威尔在《奇点临近》中的说法――一旦超过了某个奇点,就存在彻底压倒人类的可能性,在这种情况下,人与人之间的伦理是否还能约束人类与这个超越奇点的存在之间的关系?

实际上,对人工智能与人类之间伦理关系的研究,不能脱离对人工智能技术本身的讨论。在人工智能领域,从一开始,准确来说是依从着两种完全不同的路径来进行的。

首先,是真正意义上的人工智能的路径,1956年,在达特茅斯学院召开了一次特殊的研讨会,会议的组织者约翰・麦卡锡为这次会议起了一个特殊的名字:人工智能(简称AI)夏季研讨会。这是第一次在学术范围内使用“人工智能”的名称,而参与达特茅斯会议的麦卡锡和明斯基等人直接将这个名词作为一个新的研究方向的名称。实际上,麦卡锡和明斯基思考的是,如何将我们人类的各种感觉,包括视觉、听觉、触觉,甚至大脑的思考都变成称作“信息论之父”的香农意义上的信息,并加以控制和应用。这一阶段上的人工智能的发展,在很大程度上还是对人类行为的模拟,其理论基础来自德国哲学家莱布尼茨的设想,即将人类的各种感觉可以转化为量化的信息数据,也就是说,我们可以将人类的各种感觉经验和思维经验看成是一个复杂的形式符号系统,如果具有强大的信息采集能力和数据分析能力,就能完整地模拟出人类的感觉和思维。这也是为什么明斯基信心十足地宣称:“人的脑子不过是肉做的电脑。”麦卡锡和明斯基不仅成功地模拟出视觉和听觉经验,后来的特里・谢伊诺斯基和杰弗里・辛顿也根据对认知科学和脑科学的最新进展,发明了一个“NETtalk”的程序,模拟了类似于人的“神经元”的网络,让该网络可以像人的大脑一样进行学习,并能够做出简单的思考。

然而,在这个阶段中,所谓的人工智能在更大程度上都是在模拟人的感觉和思维,让一种更像人的思维机器能够诞生。著名的图灵测试,也是在是否能够像人一样思考的标准上进行的。图灵测试的原理很简单,让测试一方和被测试一方彼此分开,只用简单的对话来让处在测试一方的人判断,被测试方是人还是机器,如果有30%的人无法判断对方是人还是机器时,则代表通过了图灵测试。所以,图灵测试的目的,仍然在检验人工智能是否更像人类。但是,问题在于,机器思维在作出自己的判断时,是否需要人的思维这个中介?也就是说,机器是否需要先绕一个弯路,即将自己的思维装扮得像一个人类,再去作出判断?显然,对于人工智能来说,答案是否定的,因为如果人工智能是用来解决某些实际问题,它们根本不需要让自己经过人类思维这个中介,再去思考和解决问题。人类的思维具有一定的定势和短板,强制性地模拟人类大脑思维的方式,并不是人工智能发展的良好选择。

所以,人工智能的发展走向了另一个方向,即智能增强(简称IA)上。如果模拟真实的人的大脑和思维的方向不再重要,那么,人工智能是否能发展出一种纯粹机器的学习和思维方式?倘若机器能够思维,是否能以机器本身的方式来进行。这就出现了机器学习的概念。机器学习的概念,实际上已经成为发展出属于机器本身的学习方式,通过海量的信息和数据收集,让机器从这些信息中提出自己的抽象观念,例如,在给机器浏览了上万张猫的图片之后,让机器从这些图片信息中自己提炼出关于猫的概念。这个时候,很难说机器自己抽象出来的猫的概念,与人类自己理解的猫的概念之间是否存在着差别。不过,最关键的是,一旦机器提炼出属于自己的概念和观念之后,这些抽象的概念和观念将会成为机器自身的思考方式的基础,这些机器自己抽象出来的概念就会形成一种不依赖于人的思考模式网络。当我们讨论打败李世石的阿尔法狗时,我们已经看到了这种机器式思维的凌厉之处,这种机器学习的思维已经让通常意义上的围棋定势丧失了威力,从而让习惯于人类思维的棋手瞬间崩溃。一个不再像人一样思维的机器,或许对于人类来说,会带来更大的恐慌。毕竟,模拟人类大脑和思维的人工智能,尚具有一定的可控性,但基于机器思维的人工智能,我们显然不能作出上述简单的结论,因为,根据与人工智能对弈之后的棋手来说,甚至在多次复盘之后,他们仍然无法理解像阿尔法狗这样的人工智能如何走出下一步棋。

不过,说智能增强技术是对人类的取代,似乎也言之尚早,至少第一个提出“智能增强”的工程师恩格尔巴特并不这么认为。对于恩格尔巴特来说,麦卡锡和明斯基的方向旨在建立机器和人类的同质性,这种同质性思维模式的建立,反而与人类处于一种竞争关系之中,这就像《西部世界》中那些总是将自己当成人类的机器人一样,他们谋求与人类平起平坐的关系。智能增强技术的目的则完全不是这样,它更关心的是人与智能机器之间的互补性,如何利用智能机器来弥补人类思维上的不足。比如自动驾驶技术就是一种典型的智能增强技术,自动驾驶技术的实现,不仅是在汽车上安装了自动驾驶的程序,更关键地还需要采集大量的地图地貌信息,还需要自动驾驶的程序能够在影像资料上判断一些移动的偶然性因素,如突然穿过马路的人。自动驾驶技术能够取代容易疲劳和分心的驾驶员,让人类从繁重的驾驶任务中解放出来。同样,在分拣快递、在汽车工厂里自动组装的机器人也属于智能增强类性质的智能,它们不关心如何更像人类,而是关心如何用自己的方式来解决问题。

这样,由于智能增强技术带来了两种平面,一方面是人类思维的平面,另一方面是机器的平面,所以,两个平面之间也需要一个接口技术。接口技术让人与智能机器的沟通成为可能。当接口技术的主要开创者费尔森斯丁来到伯克利大学时,距离恩格尔巴特在那里讨论智能增强技术已经有10年之久。费尔森斯丁用犹太神话中的一个形象――土傀儡――来形容今天的接口技术下人与智能机器的关系,与其说今天的人工智能在奇点临近时,旨在超越和取代人类,不如说今天的人工智能技术越来越倾向于以人类为中心的傀儡学,在这种观念的指引下,今天的人工智能的发展目标并不是产生一种独立的意识,而是如何形成与人类交流的接口技术。在这个意义上,我们可以从费尔森斯丁的傀儡学角度来重新理解人工智能与人的关系的伦理学,也就是说,人类与智能机器的关系,既不是纯粹的利用关系,因为人工智能已经不再是机器或软件,也不是对人的取代,成为人类的主人,而是一种共生性的伙伴关系。当苹果公司开发与人类交流的智能软件Siri时,乔布斯就提出Siri是人类与机器合作的一个最朴实、最优雅的模型。以后,我们或许会看到,当一些国家逐渐陷入老龄化社会之后,无论是一线的生产,还是对这些因衰老而无法行动的老人的照料,或许都会面对这样的人与智能机器的接口技术问题,这是一种人与人工智能之间的新伦理学,他们将构成一种跨人类主义,或许,我们在这种景象中看到的不一定是伦理的灾难,而是一种新的希望。

(作者:蓝江,系南京大学哲学系教授)

人工智能可能有自主意识了吗

 

参会者在第六届世界智能大会上参观(2022年6月24日摄)  赵子硕摄/本刊

➤大模型、大数据的驱动让人工智能在对话的自然度、趣味性上有了很大突破,但距离具备自主意识还很远。换言之,即便人工智能可以对人类的语言、表情所传递的情绪作出判断,但这主要应用的是自然语言处理、计算机视觉等技术

➤不同于当前依赖数据学习的技术路线,新一代人工智能强调在没有经过数据学习的情况下,可以通过推理作出合理反应,从而与没有见过、没有学过的事物展开交互

➤当前人工智能治理面临的最大挑战,是我们没有一套比较成熟的体系来规制其潜在的风险。在发展科技的同时,必须同步发展我们的规制体系

➤“技术归根结底是由人类来发展和把控的。人类和人工智能的未来,是由人类选择的。”

文 |《瞭望》新闻周刊记者 于雪 魏雨虹

今年6月,美国谷歌公司软件工程师布莱克·勒莫因称语言模型LaMDA出现自我意识。他认为,LaMDA拥有七八岁孩童的智力,并相信LaMDA正在争取自己作为一个人的权利。

LaMDA是谷歌去年发布的一款专门用于对话的语言模型,主要功能是可以与人类交谈。

为佐证观点,勒莫因把自己和LaMDA的聊天记录上传至互联网。随后,谷歌以违反保密协议为由对其停职。谷歌表示,没有任何证据支持勒莫因的观点。

事实上,“AI(人工智能)是否拥有自主意识”一直争议不休。此次谷歌工程师和LaMDA的故事,再次引发讨论。人们想知道:人工智能技术究竟发展到了怎样的阶段?是否真的具备自主意识?其判定依据是什么?未来我们又该以怎样的能力和心态与人工智能和谐共处?

人工智能自主意识之辨

勒莫因认为LaMDA具有意识的原因有三:一是LaMDA以前所未有的方式高效、创造性地使用语言;二是它以与人类相似的方式分享感觉;三是它会表达内省和想象,既会担忧未来,也会追忆过去。

受访专家告诉《瞭望》新闻周刊记者,上述现象仅仅是因为LaMDA所基于的Transformer架构能够联系上下文,进行高精度的人类对话模拟,故能应对人类开放、发散的交谈。

至于人工智能是否已经具备自主意识,判定标准如何,受访专家表示,对人类意识的探索目前仍属于科技前沿,尚未形成统一定义。

清华大学北京信息科学与技术国家研究中心助理研究员郭雨晨说:“我们说人有自主意识,是因为人知道自己在干什么。机器则不一样,你对它输入内容,它只是依照程序设定进行反馈。”

中国社会科学院科学技术哲学研究室主任段伟文认为,一般意义上,人的自我意识是指对自我具备觉知,但如何认识和理解人类意识更多还是一个哲学问题而不是科学问题,这也是很难明确定义人工智能是否具备意识的原因。

被誉为“计算机科学与人工智能之父”的艾伦·图灵,早在1950年就曾提出图灵测试——如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么可以称这台机器具有智能。

这一设想随后被具化为,如果有超过30%参与测试的人以为自己在和人说话而非计算机,就可以认为“机器会思考”。

当前随着技术的发展,已经有越来越多的机器能够通过图灵测试。

但清华大学人工智能国际治理研究院副院长梁正告诉《瞭望》新闻周刊记者,图灵测试只能证明机器在表象上可以做到让人无法分辨它与人类的不同,却不能证明机器能够思考,更不能证明机器具备自主意识。

段伟文表示,目前大体有两种方式判定人工智能是否具有自主意识,一种以人类意识为参照,另一种则试图对机器意识进行全新定义。

若以人类意识为参照,要观察机器能否像人一样整合信息。“比如你在阳光下,坐在河边的椅子上看书,有树影落在脸上,有风吹来,它们会带给你一种整体的愉悦感。而对机器来说,阳光、河流、椅子等,是分散的单一元素。”段伟文说。

不仅如此,段伟文说,还要观察机器能否像人一样将单一事件放在全局中思考,作出符合全局利益的决策。

若跳出人类构建自主意识的范式,对机器意识进行重新定义,则需要明白意识的本质是什么。

段伟文告诉记者,有理论认为如果机器与机器之间形成了灵活、独立的交互,则可以称机器具备意识。也有理论认为,可以不追究机器的内心,仅仅把机器当作行为体,从机器的行为表现判断它是否理解所做事情的意义。“比如机器人看到人类喝咖啡后很精神,下次当它观察到人类的疲惫,能不能想到要为人类煮一杯咖啡?”段伟文说。

但在段伟文看来,这些对机器意识进行重新定义的理论,其问题出在,即便能够证明机器可以交互对话、深度理解,但是否等同于具备自主意识尚未有定论。“以LaMDA为例,虽然能够生成在人类看来更具意义的对话,甚至人可以与机器在对话中产生共情,但其本质仍然是在数据采集、配对、筛选机制下形成的反馈,并不代表模型能够理解对话的意义。”

换言之,即便人工智能可以对人类的语言、表情所传递的情绪作出判断,但这主要应用的是自然语言处理、计算机视觉等技术。

郭雨晨直言,尽管在情感计算方面,通过深度学习的推动已经发展得比较好,但如果就此说人工智能具备意识还有些一厢情愿。“把‘意识’这个词换成‘功能’,我会觉得更加准确。”

技术换道

有专家提出,若要机器能思考,先要解决人工智能发展的换道问题。

据了解,目前基于深度学习、由数据驱动的人工智能在技术上已经触及天花板。一个突出例证是,阿尔法围棋(AlphaGo)在击败人类围棋世界冠军后,虽然财力和算力不断投入,但深度学习的回报率却没有相应增长。

一般认为,人工智能可被分为弱人工智能、通用人工智能和超级人工智能。弱人工智能也被称为狭义人工智能,专攻某一领域;通用人工智能也叫强人工智能,主要目标是制造出一台像人类一样拥有全面智能的计算机;超级人工智能类似于科幻作品中拥有超能力的智能机器人。

从产业发展角度看,人工智能在弱人工智能阶段停留了相当长时间,正在向通用人工智能阶段迈进。受访专家表示,目前尚未有成功创建通用人工智能的成熟案例,而具备自主意识,至少需要发展到通用人工智能阶段。

梁正说,大模型、大数据的驱动让人工智能在对话的自然度、趣味性上有了很大突破,但距离具备自主意识还很远。“如果你给这类语言模型喂养大量关于内省、想象等与意识有关的数据,它便更容易反馈与意识有关的回应。”

不仅如此,现阶段的人工智能在一个复杂、专门的领域可以做到极致,却很难完成一件在人类看来非常简单的事情。“比如人工智能可以成为围棋高手,却不具备三岁小孩对陌生环境的感知能力。”段伟文说。

谈及背后原因,受访专家表示,第一是当前人工智能主要与符号世界进行交互,在对物理世界的感知与反应上发展缓慢。第二是数据学习让机器只能对见过的内容有合理反馈,无法处理陌生内容。第三是在数据驱动技术路线下,人们通过不断调整、优化参数来强化机器反馈的精准度,但这种调适终究有限。

郭雨晨说,人类在特定任务的学习过程中接触的数据量并不大,却可以很快学习新技能、完成新任务,这是目前基于数据驱动的人工智能所不具备的能力。

梁正强调,不同于当前主要依赖大规模数据训练的技术路线,新一代人工智能强调在没有经过数据训练的情况下,可以通过推理作出合理反应,从而与没有见过、没有学过的事物展开交互。

相比人类意识的自由开放,以往人工智能更多处在封闭空间。尽管这个空间可能足够大,但若超出设定范畴便无法处理。而人类如果按照规则不能解决问题,就会修改规则,甚至发明新规则。

这意味着,如果人工智能能够超越现有学习模式,拥有对自身意识系统进行反思的能力,就会理解自身系统的基本性质,就有可能改造自身的意识系统,创造新规则,从而成为自己的主人。

“人工智能觉醒”背后

有关“人工智能觉醒”的讨论已不鲜见,但谷歌迅速否认的态度耐人寻味。

梁正表示:“如果不迅速驳斥指认,会给谷歌带来合规性方面的麻烦。”

据了解,关于人工智能是否有自主意识的争论并非单纯技术领域的学术探讨,而关乎企业合规性的基本坚守。一旦认定公司研发的人工智能系统出现自主意识,很可能会被认为违反第2版《人工智能设计的伦理准则》白皮书的相关规范。

这一由美国电气和电子工程师协会2017年发布的规范明确:“根据某些理论,当系统接近并超过通用人工智能时,无法预料的或无意的系统行为将变得越来越危险且难以纠正。并不是所有通用人工智能级别的系统都能够与人类利益保持一致,因此,当这些系统的能力越来越强大时,应当谨慎并确定不同系统的运行机制。”

梁正认为,为避免社会舆论可能的过度负面解读,担心大家认为它培育出了英国作家玛丽·雪莱笔下的弗兰肯斯坦式的科技怪物,以“不作恶”为企业口号的谷歌自然会予以否认。“不仅如此,尽管这一原则对企业没有强制约束力,但若被认为突破了底线,并对个体和社会造成实质性伤害,很有可能面临高额的惩罚性赔偿,因此企业在合规性方面会更为谨慎。”

我国也有类似管理规范。2019年,国家新一代人工智能治理专业委员会发布《新一代人工智能治理原则——发展负责任的人工智能》,提出人工智能治理的框架和行动指南。其中,“敏捷治理”原则主要针对技术可能带来的新社会风险展开治理,强调治理的适应性与灵活性。

中国信息化百人会成员、清华大学教授薛澜在接受媒体采访时表示,当前人工智能治理面临的最大挑战,是我们没有一套比较成熟的体系来规制其潜在的风险。特别是在第四次工业革命背景下,我国的人工智能技术和其他国家一样都处于发展期,没有现成的规制体系,这样就使得我们在发展科技的同时,必须同步发展我们的规制体系。“这可能是人工智能发展面临最大的挑战。”

在梁正看来,目前很难断言新兴人工智能技术具有绝对风险,但必须构造合理的熔断、叫停机制。在治理中既要具有一定的预见性,又不能扼杀创新的土壤,要在企业诉求和公共安全之间找到合适的平衡点。

毕竟,对人类来说,发展人工智能的目的不是把机器变成人,更不是把人变成机器,而是解决人类社会发展面临的问题。

从这个角度来说,我们需要的或许只是帮助人类而不是代替人类的人工智能。

为了人机友好的未来

确保通用人工智能技术有益于人类福祉,一直是人工智能伦理构建的前沿。

薛澜认为,在科技领域,很多技术都像硬币的两面,在带来正面效应的同时也会存在风险,人工智能就是其中一个比较突出的领域。如何在促进技术创新和规制潜在风险之间寻求平衡,是科技伦理必须关注的问题。

梁正提出,有时技术的发展会超越人们预想的框架,在不自觉的情况下出现与人类利益不一致甚至相悖的情况。著名的“曲别针制造机”假说,即描述了通用人工智能在目标和技术都无害的情况下,对人类造成威胁的情景。

“曲别针制造机”假说给定一种技术模型,假设某个人工智能机器的终极目标是制造曲别针,尽管看上去这一目的对人类无害,但最终它却使用人类无法比拟的能力,把世界上所有资源都做成了曲别针,进而对人类社会产生不可逆的伤害。

因此有观点认为,创造出法力高超又杀不死的孙悟空本身就是一种不顾后果的冒险行为。

与其对立的观点则认为,目前这一担忧为时尚早。

“我们对到底什么样的技术路线能够发展出具备自主意识的人工智能尚无共识,现在谈论‘禁止发展’,有种空中楼阁的意味。”梁正说。

商汤科技智能产业研究院院长田丰告诉《瞭望》新闻周刊,现实中人工智能技术伦理风险治理的关键,是产业能够在“预判防范-应用场景-用户反馈-产品改进”中形成市场反馈机制,促成伦理风险识别与敏捷治理。同时,企业内部也需建立完整的科技伦理自律机制,通过伦理委员会、伦理风控流程平台将伦理风险把控落实到产品全生命周期中。

郭雨晨说,人工智能技术发展到目前,仍始终处于人类可控状态,而科技发展的过程本来就伴随对衍生问题的预判、发现和解决。“在想象中的人工智能自主意识出现以前,人工智能技术脚踏实地的发展,已经造福人类社会很多年了。”

在梁正看来,人与人工智能在未来会是一种合作关系,各自具备对方无法达成的能力。“技术归根结底是由人类来发展和把控的。人类和人工智能的未来,是由人类选择的。”□

长沙华夏实验学校学生和机器狗互动(2022年6月22日摄)薛宇舸摄/本刊

人工智能是否能具有像人类一样的理解能力

对人工智能来说,理解数据很简单,但要设计一个真正能够检验机器理解能力的测试却很困难。

还记得IBM的人工智能程序“沃森”(Watson)吗?2010年的一条宣传语称,“沃森能够理解自然语言的模糊性和复杂性。”然而,正如我们所看到的,沃森后来在“运用人工智能的医学革命”探索中遭遇惨败,表面上的语言能力并不等同于真正理解人类语言。

理解自然语言一直是人工智能研究的主要目标之一。起初,研究人员试图手动编程机器所需的一切,使其理解新闻故事、小说或其他人类可能编写的东西。正如沃森所展示的那样,这种方法是徒劳的,研究人员不可能将理解文本所需的所有不成文的事实、规则和假设都写下来。最近,一种新的范式已经建立起来:与其构建明确的知识,不如让机器自己学习理解语言,它所要做的,就是吸收大量的书面文本并学会预测单词。研究人员将此称为语言模型。2020年,美国旧金山的人工智能公司OpenAI训练并开发了一个自回归语言模型,称为“生成型已训练变换模型3”(GenerativePre-trainedTransformer3,简称GPT-3)。当基于像GPT-3这样的大型神经网络时,这些模型可以产出令人难以置信的,可与人类散文(和诗歌!)媲美的“作品”,并似乎能执行复杂的语言推理。

GPT-3是用成千上万的网站、书籍和百科全书的文本训练出来的,那我们能否说,它已经超越了沃森的“表面功夫”?它真的理解它产生的语言和表面上的推理?在人工智能研究领域,这个话题存在着严重的分歧。在过去,这样的讨论是哲学家的研究范畴,但在过去十年间,人工智能已经冲破了学术圈层,进入了现实世界;有人认为,人工智能对现实世界的缺乏理解可能会产生真实的、甚至是毁灭性的后果。在一项研究中,沃森提出了“许多不安全和不正确的治疗建议”。另一项研究表明,谷歌的机器翻译系统在为非英语患者翻译医疗说明时,出现了一些重大错误。

那么,我们如何在实践中确定机器真的具有理解能力?1950年,计算机先驱阿兰·图灵试图用他著名的“模仿游戏”来回答这个问题,这个游戏现在被称为“图灵测试”。一个机器如果能和一个人展开对话(通过电传设备),而不被辨别出谁是人类,谁是机器,那么我们就应该认为这台机器具有智能,即它是能思考的,具有理解能力。

不幸的是,图灵低估了人类被机器愚弄的倾向。即使是简单的聊天机器人,比如德裔美国计算机科学家约瑟夫·魏森鲍姆在20世纪60年代发明的人工智能心理治疗师“Eliza”,也会欺骗人们,让他们相信自己是在和一个善解人意的人交谈,即使知道他们的谈话对象是一台机器。

在2012年的一篇论文中,计算机科学家赫克托·莱韦斯克、欧内斯特·戴维斯和莱奥拉·摩根斯坦提出了一个更客观的机器智能测试,他们称之为“威诺格拉德模式挑战”(Winogradschemachallenge,简称WSC)。这项测试已经被人工智能语言社区采用,作为评估机器理解能力的一种方式,也许是最好的方式——尽管目前来看还尚不完美。该测试以斯坦福大学语言研究者和计算机科学家特里·威诺格拉德的名字命名,由两个句子组成,二者仅有一个单词不同,然后紧接着一个问题。机器需要识别问题中的前指关系,即指出问题中某一代词的先行词。为了正确回答问题,机器需要拥有常识推理的能力。以下是两个例子:

句子1:我把水从瓶子里倒进杯子里,直到它满为止。

问题:什么满了,瓶子还是杯子?

句子2:我把瓶子里的水倒进杯子里,直到它空为止。

问题:什么空了,瓶子还是杯子?

句子1:乔的叔叔打网球仍然能赢他,尽管他大了30岁。

问题:谁更年长,乔还是乔的叔叔?

句子2:乔的叔叔打网球仍然能赢他,尽管他年轻了30岁。

问题:谁更年轻,乔还是乔的叔叔?

对于特定的威诺格拉德模式集,神经网络语言模型达到了约97%的准确率。这大致可以和人类的表现相媲美。

在每一对句子中,一个词的差异可以改变代词指的是什么东西或什么人。正确回答这些问题需要一定的常识推理能力。威诺格拉德模式的设计正是为了测试这种理解能力,减轻了图灵测试在不可靠的人类判断或聊天机器人技巧下的弱点。特别是,该挑战的作者设计了几百种他们认为是“无法搜索”的模式:机器不应该使用谷歌搜索(或类似的任何东西)来获得正确的问题答案。

威诺格拉德模式是2016年举行的一场比赛的主题,在比赛中获胜的程序只理解对了58%的句子——很难说比瞎猜的结果好多少。人工智能研究专家奥伦·埃齐奥尼打趣道:“当人工智能无法确定一个句子中的‘它’指的是什么时,很难相信它会接管世界。”

然而,由于大型神经网络语言模型的出现,人工智能程序解决威诺格拉德模式挑战的能力正迅速提升。OpenAI公司在2020年的一篇论文报告称,在威诺格拉德模式的基准测试集中,GPT-3在近90%的句子上是正确的。其他的语言模型在经过这些任务的专门训练后,表现得甚至更好。在撰写本文时,神经网络语言模型在一组特定的威诺格拉德模式——SuperGLUE基准测试数据集的一部分——上达到了约97%的准确率。如此高的准确性已经大致相当于人类的表现。那么,这是否意味着神经网络语言模型已经获得了类似人类的理解能力?

不一定。尽管创建者尽了最大的努力,但这些威诺格拉德模式实际上并不能“免于谷歌搜索”。这些挑战,就像目前许多其他人工智能语言理解测试一样,有时会允许神经网络在没有理解的情况下也能很好地运行。例如,考虑以下句子,“跑车超过了邮车,因为它行驶得更快”和“跑车超过了邮车,因为它行驶得更慢”。一个在大量英语句子语料库上训练的语言模型会归纳“跑车”和“快”、“邮车”和“慢”之间的相关性,从而可以仅基于这些相关性而不是利用任何理解能力来做出正确回答。结果是,在SuperGLUE测试中,许多威诺格拉德模式允许使用这种类型的统计相关性。

艾伦人工智能研究所的一组研究人员没有放弃将威诺格拉德模式作为机器智能理解能力的测试,而是尝试解决其存在的一些问题。2019年,他们创建了“WinoGrande”,一个更大的威诺格拉德模式集。WinoGrande包含了多达44000个语句,而不是仅有数百个例子。为了获得如此大量的语句,研究人员求助于流行的众包工作平台“亚马逊土耳其机器人”(AmazonMechanicalTurk)。在这个平台上,每个(人类)工作者被要求写下几对句子,并加上一些约束,以确保集合中包含不同的主题。不过,现在每对句子中可能会有不止一个单词的差异。

然后,研究人员试图将一种相对简单的人工智能方法应用到每个句子上,剔除那些过于容易回答的句子,从而消除可能出现的统计捷径。正如预期的那样,对机器来说,剩下的句子比最初的威诺格拉德模式集要困难得多。人类的得分仍然很高,但与人类表现相匹配的神经网络语言模型在WinoGrande集合中的得分要低得多。这个新的挑战似乎弥补了威诺格拉德模式作为常识理解测试的缺陷——只要句子经过仔细筛选,就能确保它们不受“谷歌搜索”的影响。

然而,一个新的惊喜正在酝酿。在WinoGrande模式集发布后的近两年时间里,神经网络语言模型变得越来越大,它们在这个新挑战中的得分似乎也越来越高。在撰写本文时,目前最好的程序——已经在太字节(TB)级别的文本上进行了训练,然后在数以千计的WinoGrande示例上进行了进一步的训练——准确率接近90%(人类的准确率约为94%)。这种表现的提升几乎完全归功于神经网络语言模型及其训练数据规模的增加。

那么,这些规模越来越大的神经网络最终能获得像人类一样的常识理解能力吗?答案同样是否定的。WinoGrande的研究结果有一些重要的警示。例如,由于句子依赖于“亚马逊土耳其机器人”的工作者,写作的质量和连贯性相当不均衡。同时,在清除“不能免于谷歌搜索”的句子时,“不够成熟”的人工智能方法可能过于简单,不仅找出了所有可能用于大型神经网络的统计捷径,而且可能只应用在个别句子上,导致一些余下的句子最终失去了“孪生语句”。一项后续研究表明,当神经网络语言模型只对两个“孪生”句子进行测试——并且要求两个句子都正确——的时候,其准确率要比人类低得多。这意味着,早先准确率接近90%的结果并没有看上去的那么显著。

那么,我们应该如何看待威诺格拉德模式挑战?主要的教训是,我们通常很难从人工智能系统在特定挑战中的表现来判断它们是否真正理解其所处理的语言(或其他数据)。我们现在知道,神经网络经常使用统计捷径——而不是实际类似于人类的理解能力——以在威诺格拉德模式以及许多最流行的“通用语言理解”基准测试中获得上佳表现。

问题的关键在于,理解语言的前提是理解世界,而只接触语言的机器无法获得这样的理解。例如,让我们理解一下“跑车超过了邮车,因为它行驶得更快”这句话是什么意思。首先,你需要知道跑车和邮车分别是什么,而两种车之间可以互相“超车”;此外,在更基本的层面上,车辆存在于这个世界上,能与其他事物产生互动,而且由人类驾驶,有着各自的用途。

在我们人类的认知中,所有这些都是理所当然的知识,但它们并没有内置在机器当中,也不可能明确地记录在任何语言模型的训练文本中。一些认知科学家认为,人类依靠先天的、非语言的核心知识来学习和理解语言,这些核心知识包含了空间、时间和其他许多关于世界的基本属性。如果我们想让机器同样掌握人类语言,首先就需要赋予它们人类与生俱来的基本原则。在评估机器的理解能力时,我们应该从评估它们对这些原则的理解开始,这或许可以称为“婴儿形而上学”。

与沃森和GPT-3等人工智能系统的惊人成就相比,训练和评估婴儿水平的机器智能似乎是一个巨大的倒退。但如果我们的目标是让人工智能拥有真实可信的理解能力,这可能是唯一的途径;只有这样,机器才能真正理解句子中的“它”指的是什么,同时也理解与“它”有关的其他所有一切。(任天)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇