人工智能应用:自然语言处理的含义及发展趋势
自然语言,是指汉语、英语、法语等人们日常使用的语言,是人类发展过程中形成的一种信息交流的方式,也是人类学习生活的重要工具。在整个人类历史上,以语言文字形式记载和流传的知识占到知识总量的80%以上。
而自然语言处理(NaturalLanguageProcessing,简写NLP),则是利用计算机实现自然语言数据的智能化处理与分析,包括听、说、读、写、译等人类具备的语言能力,最终返回用户所期望的结果。它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。
从研究内容来看,自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等数据处理任务。
自然语言处理的传统应用研究也在不断延伸,细分领域更为庞大,并主要围绕自然语言理解(NLU)和自然语言生成(NLG)展开:
自然语言理解:让机器具有人的理解能力,对人类的自然语言进行表示、转换、计算,产生计算机可以理解和处理的形式,更侧重于如何理解文本,对应任务包括文本分类、命名实体识别、指代消歧、句法分析、机器阅读理解等。
自然语言生成:将计算机产生的结果转化为人类可以读懂的自然语言的过程,即理解文本后生成自然文本,涉及应用包括自动摘要、机器翻译、问答系统、对话机器人等。
目前,人们主要通过两种思路来进行自然语言处理,一种是基于规则的理性主义,另外一种是基于统计的经验主义。理性主义方法,就是聘请一批语言专家,用他们对语言的构成的知识来让计算机理解人类语言。而经验主义方法,则是让人工智能,在对大量数据的自主学习之下,慢慢模仿人类,并学习人类语言。
因此只要能够有足够多的语言数据,就能够理解人类语言。然而,当面对现实世界充满模糊与不确定性时,这两种方法都面临着各自无法解决的问题。例如,人类语言虽然有一定的规则,但是在真实使用中往往伴随大量的噪音和不规范性。我们平常说话并非一定会严格按照语法规范要求的主谓宾结构,很多年前就有这么一句广告:无兄弟,不篮球。那么用常规的语法结构就无法对这句广告进行分析。所以,理性主义方法的一大弱点就是鲁棒性差,只要与规则稍有偏离便无法处理。
而对于经验主义方法而言,又不能无限地获取语言数据进行统计学习,因此也不能够完美地理解人类语言。二十世纪八十年代以来的趋势就是,基于语言规则的理性主义方法不断受到质疑,大规模语言数据处理成为目前和未来一段时期内自然语言处理的主要研究目标。统计学习方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。
数据堂历经十余年,依靠自身技术优势,已设计制作了约20亿条自然语言处理数据集,包含多种场景的意图理解、实体关系、对话文本等数据集,数据质量经由全球AI头部企业考验。
医疗类多轮问答数据
超过20万组中文医疗场景下多轮问答数据,每组对话记录了患者和医生的对话过程,包括疾病类别和问答过程。
多轮对话文本数据
超过83万组的中文多轮对话文本数据,每组包含两个人之间的多轮对话,真实用户在手机端的交互类文本数据,数据本身已进行脱敏处理,消除了用户隐私信息。
交互场景单句意图标注数据
中文交互场景单句意图标注数据涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用等15个领域的意图标注数据。
交互场景英文单句意图标注数据
英文单句意图标注数据涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用、语音助手等16个领域的意图标注数据。
开放领域意图标注数据
涵盖出行、乘车、乘飞机、叫车、租车、行程购票、订机票、改签机票、订火车票、改签火车票、订宾馆、看电影、查询电影、定电影票、看综艺、看演唱会、查询地点位置、联系、打电话、发消息、寄快递、取快递、查询快递、充话费、充流量、开会、送人、接人、订餐馆、吃美食、看动漫等60个领域的意图标注数据。
除此之外,数据堂还提供文本数据的定制服务以及文本数据标注平台服务。文本数据定制服务可支持采集多语言、多领域的文本数据,并可根据不同的业务目标对不同类型的文本数据进行实体关系、情感分析、主题分类、意图、问答标注等任务。
文本数据标注平台覆盖实体、实体关系、阅读理解、交互意图、文本属性、文档属性、文本问答等标注工具,每一个按钮都是数据堂根据多年标注实战经验打造而成。
欢迎各界人士访问数据堂的网站,了解我们的数据服务和解决方案,作为全球领先的人工智能的数据服务商,数据堂会持续制作新的对话语义训练数据集,为人工智能模型尽一份力,如果您对自然语言理解数据集有需求,欢迎联系数据堂,我们将竭诚为您服务。
计算机人工智能的应用论文,计算机在人工智能中的应用研究
计算机在人工智能中的应用研究
摘要:近年来,随着信息技术以及计算机技术的不断发展,人工智能在计算机中的应用也随之加深,其被广泛应用于计算机的各个领域。本文针对计算机在人工智能中的应用进行研究,阐述了人工智能的理论概念,分析当前其应用于人工智能所存在的问题,并介绍人工智能在部分领域中的应用。
关键词:计算机;人工智能;应用研究
中图分类号:TP391.6文献标识码:A文章编号:1007-9599(2011)19-0000-01
AppliedResearchofCo论文联盟wWw.LWlm.commputeronArtificialIntelligence
HanXiaoying
(JiujiangUniversity,Jiujiang332005,China)
Abstract:Inrecentyears,asinformationtechnologyandcomputertechnologycontinuestoevolve,theapplicationofartificialintelligenceinthecomputeralsowilldeepenthEircomputersarewidelyusedinvariousfields.Inthispaper,computerapplicationsinartificialintelligenceresearch,explainedtheconceptofartificialintelligencetheorytoanalyzethecurrentappliedtotheproblemsofartificialintelligence,anddescribesthefieldofartificialintelligenceinsomeapplications.
Keywords:Computer;Artificialintelligence;Appliedresearch
一、前言
人工智能又称机器智能,来自于1956年的Dartmouth学会,在这学会上人们最初提出了“人工智能”这一词。人工智能作为一门综合性的学科,其是在计算机科学、信息论、心理学、神经生理学以及语言学等多种学科的互相渗透下发展而成。在计算机的应用系统方面,人工智能是专门研究如何制造智能系统或智能机器来模仿人类进行智能活动的能力,从而延伸人们的科学化智能。人工智能是一门富有挑战性的科学,从事这项工作的人必须懂得计算机知识、心理学与哲学。人工智能是处于思维科学的技术应用层次,是其应用分支之一。数学常被认为是多种学科的基础科学,数学也进入语言及思维领域,人工智能学科须借用数学工具。数学在标准逻辑及模糊数学等范围发挥作用,其进入人工智能学科,两者将互相促进且快速发展。
二、人工智能应用于计算机中存在的问题
(一)计算机语言理解的弱点。当前,计算机尚未能确切的理解语言的复杂性。然而,正处于初步研制阶段的计算机语言翻译器,对于算法上的规范句子,已能显示出极高的造句能力及理解能力。但其在理解句子意思上,尚未获得明显成就。我们所获取的信息多来自于上下文的关系以及自身掌握的知识。人们在日常生活中的个人见解、社会见解以及文化见解给句子附加的意义带来很大影响。
(二)模式识别的疑惑。采用计算机进行研究及开展模式识别,在一定程度上虽取得良好效果,有些已作为产品进行实际应用,但其理论以及方法和人的感官识别机制决然不同。人的形象思维能力以及识别手段,即使是计算机中最先进的识别系统也无法达到。此外,在现实社会中,生活作为一项结构宽松的任务,普通的家畜均能轻易对付,但机器却无法做到,这并不意味着其永久不会,而是暂时的。
三、人工智能在部分领域中的应用
伴随着AI技术的快速发展,当今时代的各种信息技术发展均与人工智能技术密切相关,这意味着人工智能已广泛应用于计算机的各个领域,以下是笔者对于人工智能应用于计算机的部分领域进行阐述。具体情况如下。
(一)人工智能进行符号计算。科学计算作为计算机的一种重要用途,可分为两大类别。第一是纯数值的计算,如求函数值。其次是符号的计算,亦称代数运算,是一种智能的快速的计算,处理的内容均为符号。符号可代表实数、整数、复数以及有理数,或者代表集合、函数以及多项式等。随着人工智能的不断发展以及计算机的逐渐普及,多种功能的计算机代数系统软件相继出现,如Maple或Mathematic。由于这些软件均用C语言写成,因此,其可在多数的计算机上使用。
(二)人工智能用于模式识别。模式识别即计算机通过数学的技术方法对模式的判读及自动处理进行研究。计算机模式识别的实现,是研发智能机器的突破点,其使人类深度的认识自身智能。其识别特点为准确、快速以及高效。计算机的模式识别过程相似于人类的学习过程,如语音识别。语音识别即为使计算机听懂人说