博舍

人工智能揭示了大脑如何处理语言的问题 人工智能反馈网络问题有哪些原因

人工智能揭示了大脑如何处理语言的问题

在过去的几年里,语言的人工智能模型在某些任务上已经变得非常出色。最值得注意的是,它们擅长预测一串文本中的下一个词;这项技术有助于搜索引擎和短信应用程序预测你将要输入的下一个词。

最新一代的预测性语言模型似乎也能学习到一些关于语言的基本含义。这些模型不仅可以预测下一个词,还可以执行似乎需要某种程度的真正理解的任务,如回答问题、文件总结和完成故事。

这类模型被设计为优化预测文本这一特定功能的性能,而没有试图模仿任何关于人脑如何执行这一任务或理解语言的东西。但麻省理工学院神经科学家的一项新研究表明,这些模型的基本功能类似于人脑中的语言处理中心的功能。

在其他类型的语言任务上表现良好的计算机模型并没有显示出与人脑的这种相似性,提供了人脑可能使用下一个单词预测来驱动语言处理的证据。

"沃尔特-A-罗森布利斯认知神经科学教授、麻省理工学院麦戈文大脑研究所和大脑、思维和机器中心(CBMM)成员、这项新研究的作者南希-坎维舍说:"模型在预测下一个单词方面做得越好,它就越接近于人脑。"令人惊讶的是,这些模型如此契合,它非常间接地表明,也许人类的语言系统正在做的是预测接下来会发生什么。"

麻省理工学院计算认知科学教授、CBMM和麻省理工学院人工智能实验室(CSAIL)成员JoshuaTenenbaum;以及神经科学FrederickA.andCaroleJ.Middleton职业发展副教授、麦戈文研究所成员EvelinaFedorenko是这项研究的资深作者,该研究本周发表在《国家科学院院刊》上。在CBMM工作的麻省理工学院研究生MartinSchrimpf是该论文的第一作者。

进行预测

新的、高性能的下一个单词预测模型属于一类叫做深度神经网络的模型。这些网络包含形成不同强度连接的计算"节点",以及以规定方式在彼此之间传递信息的层。

在过去的十年里,科学家们已经使用深度神经网络创建了视觉模型,可以像灵长类动物的大脑一样识别物体。麻省理工学院的研究还表明,视觉物体识别模型的基本功能与灵长类动物视觉皮层的组织相匹配,尽管这些计算机模型并不是专门为模仿大脑而设计的。

在新的研究中,麻省理工学院的团队使用了类似的方法来比较人脑中的语言处理中心和语言处理模型。研究人员分析了43个不同的语言模型,包括几个为下一个单词预测而优化的模型。这些模型包括一个叫做GPT-3(GenerativePre-trainedTransformer3)的模型,该模型在给定提示的情况下,可以生成类似于人类会产生的文本。其他模型被设计为执行不同的语言任务,如在一个句子中填空。

当每个模型被呈现出一串单词时,研究人员测量了构成网络的节点的活动。然后他们将这些模式与人类大脑的活动进行了比较,这些活动是在执行三种语言任务的受试者中测量的:听故事、一次读一个句子和一次读一个单词的句子。这些人类数据集包括功能磁共振(fMRI)数据和在接受脑部手术治疗癫痫的人身上进行的颅内皮质电图测量。

他们发现,表现最好的下一个单词预测模型的活动模式与人脑中的活动非常相似。这些相同的模型中的活动也与人类行为的衡量标准高度相关,例如人们能够以多快的速度阅读文本。

"我们发现,能够很好地预测神经反应的模型也倾向于最好地预测人类行为反应,以阅读时间的形式。然后这两者都由模型对下一个单词预测的表现来解释。Schrimpf说:"这个三角形真的把所有东西都联系在一起。

"这项工作的一个关键启示是,语言处理是一个高度受限的问题:正如本文所示,人工智能工程师创造的最佳解决方案最终与创造人类大脑的进化过程所发现的解决方案相似。斯坦福大学心理学和计算机科学助理教授丹尼尔-亚明斯(DanielYamins)说:"由于人工智能网络并不寻求直接模仿大脑--但最终确实看起来像大脑--这表明,在某种意义上,人工智能和自然之间发生了一种趋同的进化",他没有参与这项研究。

游戏改变者

像GPT-3这样的预测模型的关键计算特征之一是一个被称为正向单向预测变压器的元素。这种转化器能够根据之前的序列,对接下来的内容进行预测。这种转化器的一个重要特点是,它能够根据很长的先前背景(数百个字)进行预测,而不仅仅是最后几个字。

特南鲍姆说,科学家们还没有发现任何与这种处理方式相对应的大脑电路或学习机制。然而,新的发现与之前提出的假设是一致的,即预测是语言处理的关键功能之一,他说。

"语言处理的挑战之一是它的实时性,"他说。"语言来了,你必须跟上它,并且能够实时地理解它。"

研究人员现在计划建立这些语言处理模型的变体,以观察其架构的微小变化如何影响其性能和适应人类神经数据的能力。

"对我来说,这一结果改变了游戏规则,"Fedorenko说。"它完全改变了我的研究计划,因为我不会预料到在我的有生之年,我们会达到这些计算明确的模型,这些模型对大脑有足够的把握,以便我们能够真正利用它们来理解大脑的工作原理。"

研究人员还计划尝试将这些高性能的语言模型与特南鲍姆的实验室之前开发的一些计算机模型结合起来,这些模型可以执行其他类型的任务,如构建物理世界的感知表征。

"如果我们能够理解这些语言模型所做的事情,以及它们如何能够与那些做更像感知和思考的事情的模型相连接,那么这可以给我们提供更多关于事情在大脑中如何运作的综合模型,"特南鲍姆说。"这可能会使我们走向更好的人工智能模型,以及让我们对更多的大脑如何工作和一般智能如何出现有更好的模型,而不是我们过去所拥有的。

这项研究得到了武田研究金、麻省理工学院Shoemaker研究金、半导体研究公司、麻省理工学院媒体实验室联合体、麻省理工学院Singleton研究金、麻省理工学院总统研究生研究金、麦戈文研究所之友研究金、麻省理工学院大脑、思想和机器中心(通过国家科学基金会)、国家卫生研究院、麻省理工学院大脑和认知科学系以及麦戈文研究所的资助。

该论文的其他作者是伊丹-布兰克(IdanBlank)博士16岁和研究生格雷塔-塔库特(GretaTuckute)、卡琳娜-考夫(CarinaKauf)和埃格巴尔-侯赛尼(EghbalHosseini)。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇