语言智能的新发展与新挑战
语言智能是人工智能的一个领域,主要关注人类语言的智能分析和处理,涉及语音识别、自然语言理解、自然语言生成、机器翻译等领域。近日,最能体现语言智能水平的ChatGPT引发各界的广泛关注,人们怀着极大的兴趣在讨论和尝试着这项崭新的技术成果。或兴奋,或迷茫或恐慌。兴奋的是语言智能技术真的使计算机能像人类一样和我们自如地聊天解惑了,并且话语自如、有理有据,可以拒绝不合理的提问,效果如此之好,竟引发了轰动效应;惶恐的是ChatGPT具有超强的生成能力,不仅可以聊天,还可以写文章、作诗、编码程序等,这样的话,ChatGPT就会代替人类和语言相关的工作和岗位,给人类生活带来颠覆性变化;迷惑的是我们的语言智能研究下一步朝着哪个方向走?如何理性地分析ChatGPT取得的突破和主要不足?赶上或超越它的机会和落脚点在哪里?对于语言智能的飞速发展,我们要有科学理性的态度,既要热情拥抱人工智能的新发展,让它更好地服务于人类社会,又要预防它带给我们的消极影响,看到我们的不足和差距,迎头赶上。
一、ChatGPT的功能与不足
ChatGPT是由openAI研发的一种人工智能聊天机器人程序,它是基于GPT3.5架构的大型语言模型并通过强化学习进行训练,可以和人类以自然语言对话的形式进行交互,还可以用于相对复杂的语言工作比如文本生成,自动问答,自动摘要等,同时具备一定的编写和调试计算机程序的能力。ChatGPT的出现是语言智能领域的一大进步,标志着语言智能技术可以融合于信息搜索、人机交互、对话生成等方面,应用场景的落地具有广阔空间,潜力无穷。
首先,ChatGPT是一个基于深度学习的大规模预训练对话模型,主要功能是对话聊天,它通过强化学习来理解提问者的话语意图,能够较好地引入人类反馈,具备主动承认错误,区分问题是否符合伦理要求,质疑不正确的问题等,并通过清晰的逻辑思路来组织话语,距离人类的聊天方式和口气越来越近。相对于以前的对话系统,ChatGPT的主要突破在以下几点:
(一)超强的生成能力可以完成多种任务。ChatGPT除了与人对话聊天外,还能按照输入的关键词和表达的意图写小说、写论文、创作诗歌、作图、编写和纠正程序代码。还可以用在教案生成、资料查询、智能教学、智能创作和设计,在医疗、法律、教育、咨询服务等领域具有广阔应用前景。
(二)与搜索引擎相结合,基于海量数据,实现更为符合人类需求的查询结果,实现交互式搜索,给用户带来全新的体验
(三)交互能力大幅度提升。除了具有广博的知识,它还能很好地组织自己的话语,思路清晰,逻辑严密,“因此”“而且”“但是”等话语连接词使用恰当,几乎接近人类语言的能力。还能主动承认错误,拒绝不合理的提问等等。
ChatGPT的主要功能在于提供信息和社交能力,有望成为人在精神陪伴,面对挫折困难的时候提供引导和安慰的帮手。总之,ChatGPT已经成为互联网时代的语言智能的技术领跑者,给人类社会带来更加智能化和便捷化的服务。
当然,作为一种新兴人工智能模型,ChatGPT也存在一些问题和不足,主要在于:
(一)尽管对话能力和交互能力大幅度提升,但经常出现事实性错误。由于它是数据驱动的模型,对于数据背后的真实世界的状态,原理和规则等缺乏足够的认知,因此会出现一本正经地胡说八道情况。不符合常理的话语会经常出现。
(二)对于一般知识了解广泛,但无法提供专业性较强、有深度、有洞见的问题答案。例如对它进行物理学测试,简单常识性问题回答较好,越是难度增加,答案不能令人满意。说明ChatGPT掌握的知识并不深入、不专业。
(三)基于多层复杂神经网络搭建的深度学习模型,目前还不能解释其算法逻辑,经常出现事实性错误,产出的结果不具有安全性保障。如果被恶意利用,将造成严重的安全隐患,或危害法律。
二、ChatGPT的工作范式
ChatGPT是一个基于transformer神经网络架构和生成预训练技术的大型语言模型,通过对超大型文本语料的训练,来获得语言知识和世界知识。同时它还引入基于人类偏好的强化学习方法,将其应用于自然语言建模。训练的语料,除了海量无标注数据,ChatGPT还利用标注精细的专门语料库,训练机器更高的适应性和更准确的知识。这些知识是怎么被机器获得和输出的呢?ChatGPT使用的transformer神经网络结构对数据进行训练,可以输入序列,将其转化为对应的输出序列,知识是通过神经网络训练得到的。在训练过程中,ChatGPT使用了海量的自然语言文本数据来学习单词的嵌入表示,以及上下文之间的关系,这些知识被编码在神经网络的参数中,输出的结果都生成于这些参数之中。收到用户的问题时,ChatGPT会将其输入到神经网络中,神经网络会根据它学到的知识回答问题,反馈给用户。超强的记忆力是它的重要特征。ChatGPT作为一个现象级的技术产品,在生成内容方面无疑是革命性的,代表着人工智能大模型加大数据范式方法的成功,也说明采用统计模型方法模拟人类语言智能的新发展。ChatGPT在大模型的基础上,采用人类反馈强化学习的训练机制和提示引导模式,促使模型逐渐顺应人类思考逻辑,趋向人类认知和习惯,这是它的一大创新。
三、对未来语言智能走向的影响
ChatGPT除了对人类生活带来影响,对语言智能领域的研究范式和发展走向也会带来巨大的冲击。从大量的语言数据中学习,挖掘语言规律和语义关系,极大地改进了自然语言理解和生成的质量,取得惊喜的使用效果,使我们对大语言模型有了新的认知和思考:大模型范式是否成为未来语言智能的主流技术?学术界和企业界从事多年的自然语言处理研究还需要继续搞下去吗?ChatGPT会给AI领域的研究带来怎样的影响?
预训练模型的出现代表了自然语言处理技术的飞跃,减少了对特征工程的依赖,逐渐带动整个领域研究范式的转变。这种范式转变带来的影响主要体现在:
一是自然语言处理研究子领域的逐渐弱化,例如词性标注、命名实体识别、句法分析、指代消解等问题,它们在大模型+大数据独领风骚的背景下,将会逐渐失去吸引力,甚至被淡忘和遗弃。
二是自然语言处理不同子领域的技术方法和技术框架日趋统一。多少年来,为了让机器理解人类语言,人们想尽各种方法来标注词性,理解语义。ChatGPT的出现,让人们看到了语言预训练模型威力,通过这种范式处理自然语言效果会更好。
第三,从全球语言智能的发展来看,大模型范式的一路领航势必导致技术、资源、用户的高度趋合,最终走向技术和资源的单极垄断。
四、未来发展
尽管ChatGPT在智能交互方面获得惊人的能力,但它毕竟是一个预训练语言模型,基于预存知识和模型回答问题,并不具备真正的理解能力和创造能力,不能理解自己输出的内容。面对语言智能的新发展和新挑战,未来可以着重考虑以下几个着力点。
(一)深度学习模型的优化。结合人类语言习得,语言使用规律和习惯,推进深度学习模型研究,提高语义理解能力,更好模拟人类语言能力。
(二)多模态语言理解与生成。随着多模态数据的不断增加,如何在多模态语言理解任务中有效融合多种信息来源,提高语言理解的准确性是当前语言智能研究的一个重要方向。ChatGPT主要是文本的自动生成,多模态的语言理解和生成问题尚未完全解决。需要未来深入研究多模态学习和多模态生成技术。
(三)领域知识图谱的构建。虽然ChatGPT可以搜索众多信息,对一般问题回答较好,但相对有深度和专业性较强的问题却表现得力不从心。如何更好地利用知识图谱的语义信息,提高自然语言处理任务的准确性,更好地服务于各类专业性用户,也是未来可以发展的一个领域。
(四)加强人工智能伦理和数据安全等问题的研究。ChatGPT是生成型人工智能,不是简单地分析和处理数据,很可能会引发道德和法律方面的违规行为。比如,对信息数据来源无法进行事实核查,存在个人数据和商业秘密泄露,或提供虚假信息的隐患。学生使用ChatGPT写论文是否算抄袭等等,因此加强科技伦理研究,建立数据安全法规的约束机制,增强人们对技术变革的现代智慧是非常迫切的任务。
作者:李佐文,系北京外国语大学人工智能与人类语言重点实验室教授、博士生导师
[责编:蔡琳]2019语言与智能技术竞赛
(2019 LanguageandIntelligenceChallenge)
2019语言与智能技术竞赛由中国计算机学会(CCF)和中国中文信息学会(CIPS)联合主办,百度公司、CCF中文信息技术专委会和中国中文信息学会评测工作委员会联合承办。竞赛将于2019年2月25日正式开启报名通道,获胜团队将分享总额27万人民币的奖金,并将在第四届“语言与智能高峰论坛”举办技术交流和颁奖。在此,诚邀学术界和工业界的研究者和开发者参加本次竞赛!
竞赛背景
中国计算机学会和中国中文信息学会于2016-2018年联合发起了三届“语言与智能高峰论坛”,邀请了国内外学术界和工业界的知名专家学者,共同探讨语言与智能领域的新发展和新技术。第四届“语言与智能高峰论坛”将于2019年8月24日在北京召开,除向社会公众介绍国内外语言与智能及相关领域的发展趋势和创新成果外,本届会议还将举办语言与智能技术竞赛,进一步推动语言与智能领域的技术交流和发展。
语言是人类信息传递最重要的媒介,让机器理解语言并使用语言进行交互是走向通用人工智能的重要挑战,本届竞赛设立了三个任务:机器阅读理解、知识驱动对话和信息抽取。机器阅读理解是指让机器阅读文本然后回答和阅读内容相关的问题,旨在使机器具备理解自然语言的能力;知识驱动对话是一种人机对话任务,让机器根据构建的知识图谱进行对话,旨在使机器具备模拟人类用语言进行信息交流的能力;信息抽取是指让机器自动从自然语言文本中抽取实体、属性、关系等知识信息,旨在使机器具备从海量文本信息中自动构建知识的能力。本次竞赛的任务涉及到语言理解、人机对话、知识抽取等复杂技术,极具挑战。这些任务的研究对于智能搜索、智能推荐、智能交互等人工智能应用具有重要意义,是自然语言处理和人工智能领域的重要前沿课题。本次竞赛设立的三个任务都将提供大规模中文数据集,为研究者提供学术交流平台,推动语言理解和人工智能领域技术研究和应用的发展。
奖项设置
竞赛的每个任务都将分别评出一等奖1名,二等奖2名,三等奖2名,主办方中国计算机学会(CCF)和中国中文信息学会(CIPS)将为获奖者提供荣誉证书认证。同时,百度公司将为获奖者提供奖金和参会交流赞助。
● 一等奖:30,000+荣誉证书
● 二等奖:20,000+荣誉证书
● 三等奖:10,000+荣誉证书
重要时间
● 2019/2/25:启动竞赛报名,竞赛平台开放,发放样例数据
● 2019/3/31:报名截止,对报名者发放全部训练数据和第一批测试数据
● 2019/5/13:发放最终测试数据
● 2019/5/20:系统结果提交截止
● 2019/5/31:公布竞赛结果,接收系统报告和论文
● 2019/7/31:最终版论文提交截止日期
● 2019/8/24:在“语言与智能高峰论坛”上交流和颁奖
● 2019/10: NLPCC2019主会议日期,在workshop上交流
注册报名
预报名:即日起至2019年2月24日,有意向参加的队伍可以扫描下方二维码进行预报名登记。登记的队伍在竞赛网站开启正式报名后会收到邮件通知,请根据邮件提示进行正式报名。预报名且正式报名成功的队伍将获得百度定制礼品一份。
正式报名:竞赛网站将于2019年2月25日正式开放注册报名,请及时关注。正式报名并最终提交有效结果的队伍的每位成员均将获得一件大赛定制T恤(3个任务不重复领取)。
竞赛任务
介绍竞赛任务1-机器阅读理解
■ 任务描述
对于给定问题q及其对应的文本形式的候选文档集合D=d1,d2,...,dn,要求参评阅读理解系统自动对问题及候选文档进行分析,输出能够满足问题的文本答案a。目标是a能够正确、完整、简洁地回答问题q。
输入/输出:
☆ 输入:问题q及其对应的候选文档集合D
☆ 输出:满足用户问题q的文本答案a
■ 数据集
本届竞赛的机器阅读理解任务是“2018机器阅读理解技术竞赛”的延伸。任务数据集包含约28万来自百度搜索的真实问题,每个问题对应5个候选文档文本,以及人工撰写的优质答案。数据集划分为包含27万个问题的训练集、3000个问题的开发集和7000个问题的测试集。本次任务的训练集与2018年竞赛的训练集相同,已在DuReader发布,可自由下载(下载地址),供参赛者训练和调试模型使用。开发集和测试集则由2018年竞赛中的优胜系统未能较好回答的复杂问题构成。对于这些复杂问题,机器的答案质量仍然显著低于人类的答案,是当前阅读理解模型和系统需要进一步攻克的难关。报名截止后,新的开发集和测试集将向竞赛报名团队开放。
■ 评价方法
基于测试集的人工标注答案,采用ROUGE-L和BLEU-4作为评价指标。全部测试集结果作为最终评价结果。
■ 基线系统
竞赛将提供两个开源的阅读理解基线系统,基线系统的实现及结果评价请参考:开源系统和数据集论文。
竞赛任务2-知识驱动对话
■ 任务描述
给定对话目标g及相关知识信息M=f1,f2,...,fn。要求参评的对话系统输出适用于当前对话序列H=u1,u2,...,ut-1的机器回复ut使得对话自然流畅、信息丰富而且符合对话目标的规划。在对话过程中,机器处于主动状态,引导用户从一个话题聊到另一个话题。因此,对话系统为机器设定了一个对话目标,g为“START->TOPIC_A->TOPIC_B”,表示从冷启动状态主动聊到话题A,然后进一步聊天到话题B,提供的相关知识信息为话题A的知识信息,话题B的知识信息,话题A和话题B的关联信息。
输入/输出:
☆ 输入:对话目标g,知识信息M和对话历史H
☆ 输出:适合回复对话历史,且符合对话目标的回复u
■ 数据简介
数据中的知识信息来源于电影和娱乐人物领域有聊天价值的知识信息,如票房、导演、评价等,以三元组SPO的形式组织。对话目标中的话题为电影或娱乐人物实体。数据集中包括10万训练集,1万开发集,1万测试集。
■ 评价方法
自动评估指标:
☆ F1:评估输出回复相对于标准回复在字级别上的准确召回性能,是评估模型性能的主指标;
☆ BLEU:评估输出回复相对于标准回复在词级别上的性能,是评估模型性能的辅助指标;
☆ DISTINCT:评估输出回复的多样性,是评估模型性能的辅助指标;
以上自动指标将用于排行榜上的排行。
人工评估指标:
排行榜前10个对话系统进入人工评估阶段,从流畅性、一致性和主动性等几个维度进行评估。
最终排名以人工评估结果为依据。
■ 基线系统
竞赛将提供开源的知识驱动对话基线系统,基线系统的实现及结果评价请参考官方网站的更新。
竞赛任务3-信息抽取
■ 任务描述
给定schema约束集合及句子sent,其中schema定义了关系P以及其对应的主体S和客体O的类别,例如(S_TYPE:人物,P:妻子,O_TYPE:人物)、(S_TYPE:公司,P:创始人,O_TYPE:人物)等。任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1,P1,O1),(S2,P2,O2)…]。
输入/输出:
☆ 输入:schema约束集合及句子sent
☆ 输出:句子sent中包含的符合给定schema约束的三元组知识Triples
■ 数据集
本次竞赛使用的数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含50个预定义的schema、21万中文句子及43万三元组数据。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载,测试集分为两个,测试集1供参赛者在平台上自主验证,测试集2在比赛结束前一周发布,将作为最终的评测排名。
■ 评价方法
参赛者在测试集上给出的SPO结果和测试集标注结果进行精准匹配(考虑了别名情况,本次竞赛使用了百度知识图谱现有的别名词典来辅助评测),采用Precision,Recall和F1值作为评价指标。
■ 基线系统
竞赛将提供一个开源的信息抽取基线系统,将于3月8日前发布在竞赛官网。
竞赛组织
■ 主办方:中国计算机学会,中国中文信息学会
■ 组织方
● 百度公司
● 中国计算机学会中文信息技术专委会
● 中国中文信息学会评测工委会
■ 指导委员会
● 周明 微软亚洲研究院
● 孙乐 中国科学院软件研究所
● 赵东岩 北京大学
● 杨尔弘 北京语言大学
● 吴华 百度公司
■ 评测委员会
●王泉 百度公司
●孙薇薇 北京大学
●韩先培 中国科学院软件研究所
●段楠 微软亚洲研究院
●刘璟 百度公司
●吴文权 百度公司
●史亚冰 百度公司
联系我们
任何与本次技术竞赛相关的问题,请随时联系竞赛会务组。
竞赛会务组邮箱:lic2019@126.com