博舍

重视聊天机器人背后的语言知识与伦理 机器人语言学

重视聊天机器人背后的语言知识与伦理

  【新闻随笔】

  最近一段时间,人工智能和互联网领域最火的话题莫过于智能对话系统“生成式预训练模型聊天机器人”(ChatGPT,暂译,以下简称“聊天系统”)。该系统不仅支持包括中文在内的多语聊天,而且还能够扮演角色,甚至执行编程。对于或诙谐或严肃的提问,它的表现令人感到惊艳:相当多的知识内容正确,语言表达更是流畅,并且还支持多轮连续聊天。因此,不少人感慨“自己已经沉迷于和它对话”“让它替我编程、写稿,效率提升”,甚至有人用它生成了某行业的咨询报告,通过对话引导它生成的书也在亚马逊线上出版。但在聊天系统流畅交谈的表面下,其对人类知识的掌握仍不可靠。随着测试的增加,也有越来越多的人感慨它“常常一本正经地胡说八道”。错误信息以纯熟的语言表达出来,因而更加隐蔽。但无论如何,在不少人认定本轮人工智能泡沫开始破碎的时间点,它的诞生无疑是给人们打了一剂“强心针”。

  人工智能所涉任务众多,语言智能却越来越成为方法、技术、应用方面的领先领域。正如聊天系统对自己的介绍:“我是一个语言模型。”该系统得以驾驭极其广泛的知识内容,来自对互联网文本内容的获取和“理解”,进而形成了自己的“知识体系”。其中所涉技术十分复杂,但它的成功无疑以十分直观的方式向我们展示了语言之于人类知识乃至人类思维的重要性。人工智能的核心在于知识的获取、表示和运用,语言无疑是其中关键。教科书上“语言是人类最重要的思维工具”“人类九成的知识由语言承载”的论断在人工智能系统的应用上得到了淋漓尽致的展现。知识和思维的承载物是语言,因而也赋予语言无可替代的资源属性。智能技术的发展和落地,频繁向传统语言学的教育和研究发出信号:构建语言资源、挖掘语言中的知识、探索语言知识的形式表达,是最切中数字社会命脉的发展方向。

  当然,正如过去几十年中任何一项智能技术的成熟落地一样,聊天系统也引起了一波“失业潮”的舆论。这样的担心实不必要。过去几十年里,智能技术成熟引起的“失业潮”几乎从未出现,短期内或许会搅动局部行业,但长期来看却相反。技术应用本身也催生了大量新岗位,例如聊天系统的研制本身依赖于海量的人工数据标注和反馈,数据标注师和测试员岗位需求巨大。

  更深层次来看,与聊天系统强大的语言生成能力不匹配的是它对知识的真正掌握程度。大量模棱两可乃至错误的信息混杂在流畅的对话中,反而令其更加难以被发现。诚如清华大学马少平教授所说:“人工智能最大的问题是不知道自己不知道什么,也不知道自己真知道什么,什么问题都能回答,结果如何就不得而知了。”在一般性知识极易获取,复杂知识参差不齐的背景下,人类专家的专业判断力和经过思考加工的准确回答,更显弥足珍贵。人工智能诸多技术“黑箱”带来的不确定性,终究还需要人类专业、全局判断来化解。从这个层面上讲,“自知”的人类永远不可或缺。

  也恰恰因为技术“黑箱”的存在,人类才需要不断从自身、从技术去寻求可靠、可信的技术和技术使用方式。可信的人工智能、可信计算成为融合技术、伦理的重要领域,并受到越来越多的重视。更宏观的人工智能伦理和治理工作也早已被纳入科技管理的视野。挽救“失足系统”,矫正“智能体歧视”也许不再是比喻,而将成为使用者、从业者和治理者都必须面对的问题。

  (作者:饶高琦,系北京语言大学汉语国际教育研究院助理研究员)

应用语言学研究室

部门简介: 

应用语言学研究室正式成立于1977年,刘涌泉任室主任,刘倬、廖秋忠等先后担任副主任。当时的研究重点是机器翻译和自然语言信息处理。此后应用语言学研究室的工作逐步涉及计算语言学、应用语言学、语料库语言学的多个领域,包括:语言信息处理、汉语字/词的统计和计量分析、计算词汇学、语言规划、术语研究、语言数据建模、语言数据资源建设和应用、基于自然语言数据处理的汉语辞书编纂等。

目前应用语言学研究室承担多语种多模态资源库的建设和智能化辞书编纂系统的研发,并进行《现代汉语词典》《新华字典》及相关辞书的数据库建设,为传统辞书编纂出版的数字化和现代化提供技术支持。此外,应用语言学研究室开始逐步在特殊人群话语研究领域和少数民族地区国家通用语言资源数据库建设上展开研究,并取得了一定成果。

联系方式: 办公电话:01085195397 通讯地址:北京市东城区建国门内大街5号中国社会科学院语言研究所607房间邮编:100732 

工作人员: 

贾媛、张弘、张永伟、胡钦谙历届主任、副主任有:刘涌泉、刘倬、廖秋忠、姚兆炜、林联合、傅爱平、顾曰国2021年以前曾经在本室工作过的人员(按时间先后顺序):刘涌泉、刘倬、高祖舜、王广义、林联合、傅爱平、徐志敏、姜一平、廖秋忠、王丽、吴杰、吴亮、姚兆炜、范宇思、李维、任效军、张林、张弘、李芸、张永伟、顾曰国、胡钦谙、贾媛。  

以往培养学生: 博士:李晨(2013级)硕士:冯树仁、黄秀铭、乔毅、秦璋、冯志伟、李卫东(1978级)刘力平(1979级)李维、王承宏(1983级)傅爱平(1987级)胡凤国、骆彬(2000级)宋培彦(2003级)张伟萌(2005级)闻欣怡(2016级)李彬(2018级)合作博士后:黄萍 

历史沿革:

应用语言学研究室的前身是五十年代到六十年代前期的语言研究所第三组,这个研究组的主要研究领域是实验语音学和机器翻译,组长曾由当时的副所长石明远兼任,副组长刘涌泉负责机器翻译小组的工作。

中国是世界上很早开始机器翻译研究的国家之一。1956年,机器翻译就被列入了中国国家科学工作的发展规划,课题名称为“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”。在这个国家规划之下,语言所从1957年开始了机器翻译研究,作为主持单位与中国科学院计算技术研究所等单位合作,于1959年成功地进行了俄汉机器翻译系统的实验,这是当时世界上为数不多的几个机器翻译系统之一。随后出版了我国第一本机器翻译学术著作——《机器翻译浅说》(刘涌泉、高祖舜、刘倬,科学普及出版社,1964),论述“汉-外机器翻译系统”的研制方法。这个阶段后来被学界公认为我国机器翻译研究的开创期。

经过“文革”十年的停滞,语言研究所的业务工作从1975年开始恢复。1977年语言研究所第三组改组为应用语言学研究室,刘涌泉任室主任,刘倬、廖秋忠先后担任副主任。1985年改组为计算机室和应用语言学研究室,担任室主任和副主任的先后有刘涌泉、刘倬、廖秋忠、姚兆炜、林联合、傅爱平。1995年以后,由于工作的需要,两个室再度合并为应用语言学研究室,傅爱平任室主任。七十年代以后至2014年,应用语言学研究室的研究重点是机器翻译、语言信息处理、语言数据资源建设和基于自然语言数据处理的汉语辞书编纂,在这个领域的学术带头人先后是刘涌泉、刘倬、王广义、林联合和傅爱平。2014年底,顾曰国任室主任,研究重点是多语种多模态语言资源库的建设、特殊人群话语研究和辞书编纂系统的研发。2017年,应用语言学研究室并入新成立的“中国社会科学院辞书编纂研究中心”,研究方向为多语种多模态语言资源库的建设和智能化辞书编纂系统的研发,为传统辞书编纂出版手段的数字化和现代化提供技术支持。

在机器翻译研究方面,七十年代以后,应用语言学研究室先后主持研究和设计了俄-汉、英-汉、法-汉、德-汉等多种语言的实验型和应用型机器翻译系统。其中比较有影响的系统有:ECMT-78英汉机器翻译系统、JFY系列英汉机器翻译系统和GRA篇名英汉机器翻译系统,都曾分别获得国家级和省部级科学技术进步奖项。机器翻译的研究是理论方法和工程技术并举的。语言所的机器翻译研究始终注重国内外的语言理论,注重语言工程实践,结合汉语的特点,提出了多种语言分析和生成的方法。譬如:融合结构层次、结构功能和原语译语对比差异的中介成分分析法,以谓语为轴心、语法和语义同步分析的句素分析法,个性规则与共性规则相结合的语言分析生成策略,转换、递归、回溯、超前、动态上下文等语句分析算法,开放式系统的设计方法,机器翻译系统语言知识库的建立,等等。这些方法对我国基于规则的机器翻译研究和开发起到了奠基的作用,在外-汉机器翻译的发展历史中代表了相应时期的主流研究方向。

应用语言学研究室曾参与了多项国家重大语言应用项目,如1970年代末国家标准《信息交换用汉字编码字符集(基本集)》的研制,该项目于1985年获得国家标准局和电子工业部的国家标准二等奖暨电子工业部优秀科技成果奖;参加了1980年代国家首次大规模汉语字词的统计和分析,统计结果编成《现代汉语频率词典》(北京语言学院出版社,1986)、《常用字和常用词》(北京语言学院出版社,1985)和《汉语词汇的统计与分析》(外语教学与研究出版社,1985),其中后者获得1985年北京市社会科学和政策研究优秀成果一等奖;负责2000年代初全国科学技术名词审定中的语言学名词计算语言学分支学科;参加了2010年代初国际标准ISO-7098中文罗马字母拼写法的研制,2015年9月获国际标准化组织通过,2015年12月《ISO7098:2015》由国际标准化组织正式出版。 

重要成果:

著作类:《俄汉汉俄对照语言学名词》,刘涌泉,科学出版社,1961《机器翻译浅说》,刘涌泉等,科学普及出版社,1964《英汉语言学名词》,刘涌泉,中国社会科学出版社,1979《语言和计算机》1--3辑,中国社会科学出版社,1982—1986《中国的机器翻译》,刘涌泉,知识出版社,1984《语言学现代化和计算机》,刘涌泉,武汉大学出版社,1986《多语对照语言学词汇(英、法、德、俄、汉)》,刘涌泉,北京语言学院出版社,1988《应用语言学》,刘涌泉、乔毅,上海外语教育出版社,1989《海峡两岸词语对释》,刘涌泉,中国标准出版社,1992《写作措辞参考词典》,林联合,中央编译出版社,1995《汉语字母词词典》,刘涌泉,外语教育与研究出版社,2009

语言信息处理应用系统和数据库类:ECMT-78英汉机器翻译系统JFY系列英汉机器翻译系统GRA篇名英汉机器翻译系统汉语词汇资料数据库汉语语句自动分析实验系统《现代汉语词典》系列数据库系统汉语辞书XML数据库系统基于自然语言数据处理的汉语辞书编纂系统面向语料库机助辞书编纂系统(COCAL)

科研成果奖项:JFY-3(又称科译一号)英汉机器翻译系统于1989年获得国家科技进步二等奖,同时获中国人民解放军科技进步二等奖JFY-5(又称GAOLI)英汉机器翻译系统于1993年获得北京市科技进步三等奖GRA篇名英汉机器翻译系统于1994年获得国防科工委科技进步二等奖机器翻译系统的语言知识库管理软件于1992年获得首届中国社会科学院青年优秀成果二等奖基于自然语言数据处理的汉语辞书编纂系统(2011年结项),获中国社会科学院重大研究课题优秀成果

近期科研项目:社科院创新工程项目“汉语语言资源库—多模态语料库的研发与应用”,主持人顾曰国,2013年立项社科院创新工程项目“专门用途语料库与知识本体研究”,主持人顾曰国,2018年立项国家语委项目“辅助语文辞书编纂的人工智能关键技术研究”(WT135-69),主持人张永伟,2020年立项国家社科基金重大项目“面向新疆义务教育的语言资源数据库建设及应用研究”(20&ZD294),主持人贾媛,2020年立项

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇