博舍

人工智能的定义人工智能的基本概念是什么 人工智能是基于什么提供的存储技术

人工智能的定义人工智能的基本概念是什么

【热门云产品免费试用活动】|【最新活动】|【企业应用优惠】

自从人类发明了计算机或机器人,它们执行各种任务的能力都有了相对的增长,人类已经可以开发出计算机系统的很多功能,涉及各种工作领域,人工智能的定义,简单来说,就是要通过智能的机器,达到人与机器和谐共处的一个社会。逐渐延伸了人类改造自然和治理社会的能力。

人工智能的定义是什么?

人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能的定义

人工智能的基本概念(AI)

根据人工智能之父约翰麦卡锡的说法,它是“制造智能机器的科学与工程,特别是智能计算机程序”。

人工智能是一种使计算机,计算机控制的机器人或软件智能地思考的方式,其方式与智能人类的思维方式类似。人工智能是通过研究人类大脑如何思考以及人类在尝试解决问题时如何学习,决定和工作,然后将本研究的结果用作开发智能软件和系统的基础来实现的。

在充分利用计算机系统的力量的同时,人类的好奇心使他想知道“机器能像人类一样思考和行为吗?”

因此,人工智能的发展始于在我们发现并在人类中高度重视的机器中创造类似的智能。

人工智能的定义

学习人工智能的必要性

我们知道AI追求创造像人类一样聪明的机器。我们研究AI的原因有很多。

AI可以通过数据学习

在我们的日常生活中,我们处理的是大量的数据,人类的大脑无法跟踪这么多的数据。这就是我们需要自动化的原因。为了实现自动化,我们需要研究AI,因为它可以从数据中学习,并且可以准确无误地完成重复性任务。

AI可以自学

系统应该自学,因为数据本身不断变化,并且必须不断更新从这些数据中获得的知识。我们可以使用AI来实现这一目的,因为启用AI的系统可以自学。

AI可以实时响应

借助神经网络的人工智能可以更深入地分析数据。由于这种能力,AI可以根据实时情况思考和响应情况。

AI实现准确性

在深度神经网络的帮助下,AI可以实现极高的准确性。AI帮助医学领域从患者的MRI中诊断癌症等疾病。

AI可以组织数据以最大限度地利用它

数据是使用自学习算法的系统的知识产权。我们需要AI以一种始终提供最佳结果的方式索引和组织数据。

了解情报

使用AI,可以构建智能系统。我们需要了解智力的概念,以便我们的大脑可以构建像自己这样的另一个智能系统。

人工智能的定义其实是一个非常广泛的领域。这些领域虽然目前不是非常集中,但是它们正在交叉发展中,很多的未知的领域处在研究之中,并且逐渐走向统一。人工智能的最终目标是希望变成一门真正的科学,形成一个完整的科学体系。

更多相关文章:

1.域名建站专场

2.商标特惠专场

3.云速邮箱

4.网站建设专场

5.SSL证书专场

6.全球云服务专场

7.云服务器免费试用

8.企业免费试用专区

9.个人免费试用专区

10.图片文字识别OCR

11.网站建设自助建站

12.企业应用专场

13.域名注册申请

14.服务器和网关的关系是什么?网关的作用有哪些

15.域名解析a记录是什么意思

16.网址域名ip查询方式有哪些?域名和ip地址的区别是什么?

17.域名和url的区别与联系是什么?

18.域名和ip地址有什么关系?二者的含义是什么?

19.com域名和cn域名是什么意思?com和cn域名哪个好?

版权声明:本文章文字内容来自第三方投稿,版权归原始作者所有。本网站不拥有其版权,也不承担文字内容、信息或资料带来的版权归属问题或争议。如有侵权,请联系contentedit@huawei.com,本网站有权在核实确属侵权后,予以删除文章。

人工智能如何提升大数据存储与管理效率

 随着大数据的大量来源以及企业可用数据量的增加,存储容量规划已成为存储管理员的问题。据估计,每天产生2.5万亿字节的数据。现在,如果以神经元计算的话,那就是相当于2.5亿个人类大脑的海量数据。而且,相同的估计表明,全球总数据的90%是从2016年到2018年生成的。

[[356380]]

 

可以简单地说,每天生成越来越多的数据,这正增加了存储工作负载的规模和复杂性。但是,人工智能可以拯救存储管理员,帮助他们高效地存储和管理数据。通过使用AI数据存储,供应商和企业可以将存储管理提升到一个新的水平。而且,存储管理员可以找到他们目前正在努力管理的指标的解决方案。

 

存储管理员需要努力的主要指标

存储管理员在管理存储问题时面临一些挑战。而且,如果他们克服了这些挑战,将帮助他们在数据存储的各个方面之间找到适当的平衡,例如在哪里分配工作负载,如何分配工作负载以及如何优化堆栈等等。

一般而言,吞吐量是指处理某事物的速率。在网络级别,吞吐量的度量单位是Mbps(兆位/秒),而在存储级别,吞吐量的度量单位是MB/秒(兆字节/秒)。由于一个字节等于八兆位,因此生产率在存储级别上提高了。并且,变得难以管理提高的生产率。

延时

延迟是服务器完成请求所花费的时间。关于存储,这是指满足单个存储块的请求所花费的时间。存储块或块存储是将数据存储在卷中的块。纯延迟不受吞吐量影响,但是如果单个块请求很大,则应用延迟可能会随着吞吐量的增加而偏离。

IOPS(每秒输入/输出操作)

IOPS是指存储堆栈每秒可以处理的离散读写任务的数量。存储堆栈是一种允许过程调用的数据结构。这意味着将多个过程彼此存储在堆栈中,然后在调用和返回的基础上一个接一个地执行所有过程。例如,如果一个过程被调用,它将被执行,然后返回,以便在堆栈中调用下一个过程。而且,在谈论IOPS时,基础输入/输出任务可以达到存储系统的堆栈限制。例如,读取一个大文件和多个小文件可能会对IOPS产生影响。由于读取单个大文件仅需要执行一个读取任务,因此可以以较高的速度执行它,而另一方面,读取多个文件的速度非常慢,因为需要执行许多读取任务。

AI数据存储如何解决存储问题

企业管理员和存储供应商处理各种各样的存储类型。而且,它们还满足不同输入/输出服务的指标。大型文件共享应用可能需要适当的吞吐量,但也必须允许延迟损失,因为大型而复杂的应用可能会对延迟产生不利影响。另一方面,电子邮件服务器可能需要大量存储,低延迟和良好的吞吐量,但它可能不需要非常苛刻的IOPS配置文件。并且,存储管理员应该决定应该为哪些存储分配什么资源。因此,在组织中运行着成千上万的服务时,对基础存储的管理超过了人们进行明智更改的能力。而且,这就是AI算法派上用场的地方。

人工智能支持的存储管理和计划

AI可以监控存储以检测多种工作负载的模式和性能。这里的工作负载是由各种输入/输出特征或应用任务生成的数据流。通过检测这些工作负载模式,AI可以帮助存储管理员洞悉哪些工作负载可能使他们面临最大化存储阵列的风险。此外,存储监视还可以帮助了解是否有任何额外的工作负载可以放入阵列中。而且,如果添加到阵列中,那么工作负载将造成多少中断。

例如,假设一家企业正在向流程中添加电子邮件服务器。在这种情况下,人工智能系统可以帮助预测存储阵列将能够满足该服务器的存储需求还是将其最大化。借助此类技术,存储管理员可以主动获取有关如何将不同的工作负载分配给不同的存储堆栈并最大程度地减少延迟的信息。因此,将AI集成到存储阵列,存储供应商和组织中可以优化存储堆栈。

除了监视存储活动外,存储管理员还需要检查和分析存储系统要使用的应用的编码和错误。这有助于他们更好地了解如何围绕应用的需求设计存储体系结构。他们通过了解应用的输入/输出模式来做到这一点。用于执行此操作的最常见技术是捕获应用的跟踪。

Strace是Linux的用户空间实用程序,可用于诊断、调试和获取有关输入和输出功能的指令。但是,由于复杂的应用可以具有多个输入/输出功能,因此这对人类来说可能是一个挑战。另一方面,ML算法可以轻松地提取和分析大量数据,并解决许多存储问题,最好是通过查看存储系统本身来解决。此外,通过使用大量数据训练算法,以了解特定堆栈或整个应用如何收集和存储数据,它们可以帮助实现对该特定应用存储活动的实时观察,以防止堆栈最大化并改善存储容量。

AI数据存储可满足客户需求

遥测数据是自动记录和无线传输来自远程或不可访问来源的数据。遥测以下列方式起作用:传感器在源处测量数据,它们将其转换为电压,然后将其与定时数据合并为单个数据流,该数据流将传输到远程接收器。接收后,可以根据用户要求对数据进行处理。

AI的计算机视觉技术可以扫描遥测数据,以保护存储阵列免受漏洞侵害。当使用有关漏洞的历史数据进行训练时,机器学习算法可以将来自各种应用程序的传入数据与历史数据进行匹配,以发现漏洞的可能性。因此,借助AI的预测分析,存储供应商可以着眼于在遇到客户之前防止存储问题。

AI数据存储仍处于起步阶段,但已经显示出了惊人的结果。而且,因此云供应商和其他存储管理员正在对AI进行越来越多的投资,以使用超融合存储系统进行存储维护。采用主流AI数据存储肯定会帮助企业控制上述所有指标,并为其客户提供更好的服务。

 

人工智能是什么

人工智能是什么?欢迎大家迈入人工智能的大门1.人工智能的定义2.人工智能的话题3.人工智能的四大技术分支4.人工智能的主要应用领域5.人工智能的三种形态5.1.弱人工智能到强人工智能有多难?5.2.弱人工智能的前进方式5.3.强人工智能到超级人工智能之路5.4.智能爆炸——强人工智能时代微信公众号同步欢迎大家迈入人工智能的大门

  人工智能(ArtificialIntelligence,AI)是当前全球最热门的话题之一,是21世纪引领世界未来科技领域发展和生活方式转变的风向标,人们在日常生活中其实已经方方面面地运用到了人工智能技术,比如网上购物的个人化推荐系统、人脸识别门禁、人工智能医疗影像、人工智能导航系统、人工智能写作助手、人工智能语音助手等等。目前有大量群体对人工智能的定义、原理、分类、应用产生了极大地兴趣,可是网上媒体发布的一些资料信息大多具有极强的偏向性和导向性,很少有客观全面的总结。在这里,我做了一个详细的“人工智能图解笔记”,从人工智能的定义、分类和发展路径等角度,给大家展示了一个全面的人工智能图谱。

1.人工智能的定义

  人工智能的定义主要有以下几种:

人工智能的一种定义:《人工智能,一种现代的方法》笔记:人工智能是类人思考、类人行为,理性的思考、理性的行动。人工智能的基础是哲学、数学、经济学、神经科学、心理学、计算机工程、控制论、语言学。人工智能的发展,经过了孕育、诞生、早期的热情、现实的困难等数个阶段;人工智能的另一种定义:人工智能是研究、开发用于模拟、延伸和扩展人的智能理论、方法、技术及应用系统的一门新的技术科学,它是计算机科学的一个分支;人工智能是一门什么科学?:人工智能科学的主旨是研究和开发出智能实体,‍‍在这一点上它属于工程学。工程的一些基础学科自不用说‍‍,数学、逻辑学、归纳学、统计学,‍‍系统学、控制学‍‍、工程学、计算机科学‍‍,还包括对哲学、心理学、生物学、神经科学、认知科学‍‍、仿生学‍‍、经济学‍‍、语言学‍‍等其它学科的研究‍‍,可以说‍‍这是一门‍‍集数门学科精华的‍‍尖端学科中的尖端学科——因此说人工智能是一门综合学科。‍

2.人工智能的话题

  人工智能的话题有且不限于以下几种:

我们总是把人工智能和电影想到一起:星球大战、终结者、2001:太空漫游等等,电影是虚构的,那些电影角色也是虚构的,所以我们总是觉得人工智能缺乏真实感;人工智能是个很宽泛的话题:从手机上的计算器到无人驾驶汽车,到未来可能改变世界的重大变革,人工智能可以用来描述很多东西,所以人们会有疑惑;我们日常生活中已经每天都在使用人工智能:生活中很多互联网工具已经是人工智能了,只是我们没意识到,或者已经习惯了而已。JohnMcCarthy在1956年最早使用的人工智能(ArtificialIntelligence)这个词,他总是抱怨“一旦一样东西用人工智能实现了,人们就不再叫它人工智能了。”;一些场景的弱人工智能例子:谷歌,一个巨大的搜索热人工智能;智能手机,弱人工智能系统;智能汽车,很多已经安装了控制汽油渗入,控制防抱死系统的电脑等;垃圾邮箱过滤器也是经典的弱人工智能。

3.人工智能的四大技术分支

  人工智能的四大技术分支如下所示:

模式识别:是指对表征事物或者现象的各种形式(数值的文字、逻辑的关系等等)信息进行处理分析,以及对事物或现象进行描述分析分类解释的过程,例如汽车车牌号的辨识,涉及到图像处理分析等技术;机器学习:研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构是指不断完善自身的性能,或者达到操作者的特定要求;数据挖掘:知识库的知识发现,通过算法搜索挖掘出有用的信息,应用于市场分析、科学探索、疾病预测等等;智能算法:解决某类问题的一些特定模式算法,例如我们最熟悉的最短路径问题,以及工程预算问题等等。

4.人工智能的主要应用领域

  人工智能的主要应用领域有哪些呢?

机器人领域:人工智能机器人,如PET聊天机器人,它能理解人的语言,用人类语言进行对话,并能够用特定传感器采集分析出现的情况、调整自己的动作来达到特定的目的;语音识别领域:该领域其实与机器人领域有交叉,设计的应用是把语言和声音转换成可进行处理的信息,如语音开锁(特定语音识别)、语音邮件以及未来的计算机输入等方面;图像识别领域:利用计算机进行图像处理、分析和理解,以识别各种不同模式的目标和对象的技术,例如人脸识别、汽车牌号识别等等;专家系统:具有专门知识和经验的计算机智能程序系统,后台采用的数据库,相当于人脑具有丰富的知识储备,采用数据库中的知识数据和知识推理技术来模拟专家解决复杂问题。

5.人工智能的三种形态

  人工智能具体有哪三种形态呢?

弱人工智能:弱人工智能(ArtificialNarrowIntelligence,ANI)是擅长与单个方面的人工智能,比如有能战胜象棋世界冠军的人工智能,但是它只会下象棋,你要问它怎样更好地在硬盘上存储数据,它就不知道怎么回答你了;强人工智能:强人工智能(ArtificialGeneralIntelligence,AGI),是人类级别的人工智能,强人工智能是指在各方面都能和人类比肩的人工智能,人类能干的脑力活它都能干。创造强人工智能比创造弱人工智能要难得多,我们现在还做不到。LindaGottfredson教授把智能定义为“一种宽泛的心理能力,能够进行思考、计划、解决问题、抽象思维、理解复杂理念,快速学习和从经验中学习等操作”。强人工智能在进行这些操作时,应该和人类一样得心应手;超人工智能:超人工智能(ArtificialSuperIntelligence,ASI),牛津哲学家,知名人工智能思想家NickBostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科技创新、通识和社交技能”。超人工智能可以是各方面都比人类强一点,也可以是各方面都比人类强万亿倍,超人工智能也正是为什么人工智能这个话题这么火热的缘故,同样也是为什么永生和灭绝这两个词会在本文中多次出现。

5.1.弱人工智能到强人工智能有多难?

  弱人工智能已经实现了,强人工智能还有一段路要走。那么目前究竟遇到了哪些困难呢?

一个大困难:人类的大脑是我们所知宇宙中最复杂的东西,至今我们都还没完全搞清楚;可以简单解决的:可简单解决的造一个能在瞬间算出10位数乘法的计算器;目前比较难以解决的:选一个能分辨出一个动物是猫还是狗的计算机;已经成功的:造一个能战胜世界象棋冠军的电脑;还没做出来的:谷歌目前花了几十亿美元在做一个能够读懂六岁小朋友的图片书中的文字,并且了解那些词汇意思的电脑;逻辑容易感知难:一些我们觉得困难的事情——微积分,金融市场策略、翻译等等,对于电脑来说都太简单了;而且我们觉得容易的事情——视觉、动态、转移、直觉——对电脑来说太难了;计算机科学家DonaldKnuth:人工智能已经在几乎所有需要思考的领域超过了人类,但是在那些人类和其它动物不需要思考就能完成的事情上还差得很远;人工智能的一个典型目标例子:要想达到人类级别的智能电脑,电脑必须要理解更高深的东西,比如微小的脸部表情变化,开心、放松、满足、满意、高兴这些类似情绪间的区别,以及为什么《布达佩斯大饭店》是好电影,而《富春山居图》是烂电影。

5.2.弱人工智能的前进方式

  弱人工智能已经实现了,强人工智能还有一段路要走。那么目前究竟遇到了哪些困难呢?

第一步:增加电脑处理速度:要达到强人工智能,肯定要满足的就是电脑硬件的运算能力,如果一个人工智能要像人脑一般聪明,他至少要能达到人脑的运算能力。从人脑的发展速度来看,预计到了2025年就能花1000美元买到可以和人脑运算速度抗衡的电脑了;第二步:让电脑变得更智能:抄袭人脑,参考人脑范本做一个复杂的人工神经网络,科学界正在努力逆向工程人脑,来理解生物进化是怎么造出这个神奇的东西的,乐观的估计是我们在2030年之前能够完成这个任务,我们已经能模拟小虫子的大脑了,蚂蚁的大脑也不远了,接着就是老鼠的大脑,到那时模拟人类大脑就不是那么不现实的事情了;模仿生物演化,除了抄袭人了,也可以像制造飞机、模拟小鸟那样模拟类似的生物形式。不全部复制,包括部分人工的设计干预,因为人类主导的演化会比自然快很多很多,但是我们依然不清楚这些优势是否能使演化模拟成为可行的策略。让电脑来解决这些问题,如果抄学霸的答案和模拟学霸备考的方法都走不通,那就干脆让考题自己解答自己吧。这种想法很无厘头,却是最有希望的一种。总的思路是我们建造一个能进行两项任务的电脑——研究人工智能和修改自己的代码,这样他就不只能改进自己的架构了,我们直接把电脑变成了电脑科学家,提高电脑的智能就变成了电脑自己的任务,前期会很慢,但一旦上路,后面会飞速发展。

5.3.强人工智能到超级人工智能之路

  从强人工智能到强人工智能,还有哪些需要改进和增强的地方呢?

发展的观点:总有一天,我们会造出和人类智能相当的强人工智能电脑。到了这个时候,人工智能不会停下来,考虑到强人工智能之于人脑的种种优势,人工智能只会在“人类水平”这个节点做短暂的停留,然后就会开始大踏步向超人类级别的智能走去;超级人工智能比人类牛逼的地方:硬件上,运算速度往着几何级的速度增长;容量和存储空间也会迅速提升,远超人类,而且不断拉开距离;可靠性、持续性,不会疲惫,能持续不断的思考;软件上,可编辑性、升级性,以及更多的可能性。和人脑不同,电脑软件可以进行更多的升级和修正,并且很容易做测试,另外一个则是集体能力,人类的集体智能是我们统治其它物种的重要原因之一,而电脑在这方面比我们要强得很多,一个运行特定程序的人工智能网络能够经常在全球范围内自我同步,这样一台电脑学到的东西会立刻被其它所有电脑学得,而电脑集群可以共同执行同一个任务,因为异见、动力、自利这些人类特有的东西未必会出现在电脑身上。

5.4.智能爆炸——强人工智能时代

  如果强人工智能时代来临,地球将是一幅怎样的景象呢?

人类统治地球观:人类对于地球的统治教给我们一个道理——智能就是力量,也就是说一个超人工智能,一旦被创造出来,将是地球有史以来最强大的东西,而所有生物,包括人类都只能屈居于其下——而这一切有可能在未来几十年就发生。当一个超人工智能出生的时候,对我们来说,就像一个全能的上帝降临地球一般;递归的自我改进概念:一个运行在特定智能水平的人工智能,比如说脑残人类水平,有自我改进的机制,当它完成一次自我改进后,她比原来更加聪明了,我们假设它到了爱因斯坦水平,而这个时候它继续进行自我改进,然而现在它有了爱因斯坦水平的智能,所以这次改进会比上一次更加容易,效果也更好。第二次的改进使它比爱因斯坦还要聪明很多,但它接下来的改进进步更加明显。如此反复,这个强人工智能的智能水平越长越快,直到它达到了超人工智能的水平——这就是智能爆炸,也是加速回报定律的终极体现;当人工智能达到人类水平:以下的情景可能会发生:一个人工智能系统,花了几十年时间到达了人类脑残智能水平,而这个节点发生的时候,电脑对于世界的感知大概和一个四岁小孩一般;而这个节点后一个小时,电脑立马推导出了统一广义相对论和量子力学的物理理论;而在这之后一个半小时,这个超人工智能变成了超人工智能,智能达到了普通人类的17万倍;科技大佬警惕人工智能的原因:现在很多科技大佬包括科学家都在提出警惕人工智能,要建立和完善法律法规,目的就是担心未来人类会因此毁灭。那些在我们看来超自然的只属于全能的上帝的能力,对于一个超人工智能来说,可能就像按下一个电灯开关那么简单,防止人类衰老、治疗各种不治之症、解决世界饥荒、甚至让人类永生、操纵气候来保护地球未来什么的,这一切都将变得可能,同样可能的是地球上所有生命的终结。微信公众号同步

  小编在这里通知大家,关注微信公众号“机器学习和人工智能”,干货多多~  我们会定期推送Python编程,人工智能基础算法,学术界、工业界最新动态,让更多的人了解人工智能~  欢迎扫描下方二维码关注哈~

人工智能语料库技术是什么来看科普!

国际传播人工智能翻译语料库是指基于互联网平台,运用以神经机器翻译技术为基础的人工智能翻译技术,对国际传播等相关领域的语料进行数据化处理和加工,建立系统对外传播党政文献,领导人著作、讲话及外宣图书,期刊及网络新闻等宣传内容为主的语料数据库,并在此基础上建立国际传播综合人工智能语料库。

经过60多年的演进,特别是在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术以及经济社会发展强烈需求的共同驱动下,人工智能加速发展,呈现出人机协同、深度学习、跨界融合、群智开放、自主操控等新特征,推动经济社会各领域从数字化、网络化向智能化加速跃升。

作为人工智能重要相关学科,自然语言处理技术(NLP)是研究人与计算机交互的语言问题的一门学科,只有当计算机具备了自然语言的处理能力,才可称其为真正的人工智能。

20世纪90年代以来,中国的自然语言处理技术进入快速发展时期,一系列商品化的系统推向市场,新的研究内容、新的应用领域也在不断探索中。

相关研究均从语音和文本两方面进行,基础性研究主要集中在语言学、数学、计算机科学等领域,比如消除歧义、语法形式化、计算语言学理论基础以及语言资源库等;应用性研究主要集中在一些需要应用自然语言处理技术的领域中,比如信息检索八字网、文本分类、自动文摘、机器翻译等。

目前,词法、句法、语义分析等基础理论的研究和语言资源库的建设依然是研究的重点,这一类别的项目几乎占据项目总数的“半壁江山”。

人工智能技术研究领域的机器翻译类研究是近年来的热点,而自然语言理解以及术语数据库、键盘输入、音字转换等其他类别的研究相对较少。从长远看,机器翻译是自然语言处理领域中一个相当重要的部分,直到现在,国内对高质量机器翻译系统仍然有相当大的需求。

人工智能促进语言服务发展过程中,作为覆盖范围及应用领域日益广泛的语料库,在提高翻译教学质量、培养优秀译员及促进计算机辅助翻译中发挥着重要作用。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库。前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域;后者将表述同样内容的不同语言文本收集在一起,多用于语言对比研究。

目前已经积累的语料库包括:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库的多语言平行语料数据、短消息服务(SMS)语料等。

语料库有三个基本特征:一是语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;二是语料库是承载语言知识的基础资源,但并不等于语言知识;三是真实语料需要经过加工(分析和处理),才能成为有用的资源。目前,国际和国内已有大量建成的语料库。

英国和美国的语料库建设走在世界前列,如BNC英国国家语料库、美国当代英语语料库。我国外语语料库建设多集中于外语口译、教学等领域,语种以英语居多,比如中国学习者英语语料库及中国英语学习者口语语料库等,实施单位多为如高校科研机构等,针对国际传播的专项人工智能语料库建设仍为空白。

2018年11月7日,在浙江乌镇举行的第五届世界互联网大会“互联网之光”博览会会场内展示的搜狗翻译宝Pro。供图/视觉中国

国际传播两个主要矛盾

1、翻译及多语报道人力不足制约国际传播发展

经调研,从2013年起,我国整体翻译业务的“中译外”业务量比例开始显著高于“外译中”业务量,同年党中央提出“一带一路”倡议,极大地拓展了向国际社会展示自己和对外交流的资源和实力。

然而翻译人才,尤其是“中译外”人才严重匮乏,其中“一带一路”沿线国家小语种人才缺口较大等问题严重制约中国特色政治话语体系的全面外译以及我国国际话语权地位的提升。

“一带一路”沿线国家所使用的官方语言及主要民族语言有60余种,2013年“一带一路”倡议提出时,我国高校外语专业招生语种只覆盖了其中20种,而且11个小语种人数不超过100人,其中8个语种在50人以内。

截至目前,我国尚未有高校开设的语种有18种,仅有一所高校开设的语言有20种,而且已开设的一些语种也存在人才储备不足的情况。在国际传播方面,我国懂新闻、懂传播技术同时又精通外语的“三通”复合型语言服务人才更加稀缺。与此同时,可有效弥补多语、小语种人才紧缺的人工智能翻译软件应用仍缺乏专业性,且翻译质量精准度较低。

我国日益提高的国际话语权建设需求与翻译和多语报道人才培养不平衡不充分矛盾突出,因此,亟须建设大量纳入优秀“中译外”精准语料的数据库,解放国际传播翻译写作人力,为国际传播能力建设解决束缚生产力发展的瓶颈性障碍,促进我国国际话语权综合地位提升,推动中华优秀传统文化创造性转化、创新性发展。

2、人工智能机器翻译推广受语料库瓶颈阻碍

现有的人工智能机器翻译虽然发展迅速,甚至可以在某些程度帮助提高效率,但由于缺少国际传播领域专业语料,模块训练无法正常实施,产生的成果无法为外宣工作服务。据调查,目前国内对外开放的语料库以高校研究为主,提供给广大外宣工作者使用的精准语料库资源严重不足。

作为机器翻译发展重要基础的外语语料库建设成为人工智能机器翻译推广的瓶颈问题。但值得一提的是,目前国际传播专项语料库建设虽具备基础语料,但仍有大量的语料资源散落,亟须整理整合。这些陈旧性历史资料为数不少,有些已经处于濒危状态,亟待保护性整理开发。

随着自然语言处理、知识库等人工智能技术在新闻传播领域的应用实践,国外媒体纷纷尝试使用机器写稿等先进技术。

《纽约时报》数字部门开发了机器人编辑Blossomblot,每天推送300篇文章,每篇文章的平均阅读量是普通文章的38倍,此外,《纽约时报》还会在财报季、运动比赛报道的时候使用机器人来写稿;路透社也在发表机器撰写的文章,该系统负责人在一次盲测中,认为机器撰写的作品比人类作品更具可读性。

国际传播基于人工智能语料库技术实现跨越式发展,将有利于我国进一步树立国际话语权优势。

一是语料库技术能在战争、疫情条件下,实现冗余信息过滤和有效信息抓取,提高采访、写作效率;二是可对国际受众做行为分析和兴趣等全息画像,深层了解受众,实现精准投放;三是语料库技术能为外宣稿件做综合管理统计和分析规划,研究数据可辅助制定优化战略。

国际传播翻译语料库建设四大途径

国际传播人工智能语料库将立足于各大外事、外宣单位70多年来多媒体对外说明中国的多语资源,一期建设预计完成涉及12个外语语种,包含5000万条语料,数据类型从词、句对、语篇到文章、期刊和书籍的优质语料数据库。

依据国际传播工作需要,在不包含中文对照的多语比较语料库中,将按照语言使用国家行政区域划分为东亚、中亚、西亚,非洲,南美、北美,东欧、西欧及大洋洲等。

语料库建设可采用人工智能检索技术,包含小到词典功能,大到语句、语篇的关联,可以分政治经济、外交军事、人文社科、科学技术和文化娱乐等类型检索搜集语篇摘要、文章和书籍,系统还将初步涉及人工智能完成稿件写作的基础功能,完成机器模仿人脑思维翻译和写作对外传播稿件等功能设计。

1、语料库建设须做好前期准备

首先,语料库建设将开发使用语料库分析统计软件,该软件应具有索引、词表生成、主题词计算、搭配和词族提取等多种功能,这为本项目的开展提供强大的技术支持。

其次,语料库建设以阅读大量专业文献资料为基础,并借鉴权威语料库建设经验。将语料类别依据是否有中文对照可区分为平行语料库及比较语料库,前者可多以中国外文局、中国日报、中国国际广播电台等历史数据为主,涉及外文出版社、《今日中国》及《人民中国》中外文对照语料;后者多以《北京周报》、新华社对外部、《求是》(英文版)、《环球时报》等外文语料为主。

2、语料库架构及功能设计和语料加工

国际传播人工智能语料库可通过多种方式进行文本采集,如大量分析真实历史语言数据、利用网络现有语料资源等。

语料库可涉及多种题材,如政治、经济及文化术语和科技专利翻译相关名词等,涉及语料库题材、规模、样本的大小、切分标注标准等;此外还应充分考虑到语料代表性、平衡性、一致性、标签集、描述元语言等诸多要素。

3、通过中央机关和国家外事外宣部门历史资料广泛收集语料

首先,在语料库的大体结构设计完成后,查询并收集关于“一带一路”各种国际传播的多类型相关语料的研究。

以“一带一路”为例,可以归纳的高频主题名词有合作、一带、一路、国家、丝绸之路、愿景、开放、贸易、发展、互联、互利共赢、投资、亚洲、文化、机制、地区、21世纪、合作、基础设施等。

同时,“一带一路”倡议中主题高频形容词及副词有“互相的、经济的、共同地、地区的、国际的、跨边界的、海上的、文化的、多边的”,这些词语在情态上具有很强的评价功能,它们在强调相互合作重要性的基础上进一步强调了构建命运、经济和责任共同体的重要性以及建设海上丝绸之路和多边文化交流的必要性。

其次,语料库还将时刻关注中央机关及国家外事外宣部门主要国际传播活动最新动向,不断收集有关词、固定搭配以及句子等。为了提高翻译质量,语料库在收录大量词、句的同时还将深入挖掘其文化内涵并将这些词、句进行有机整合。

4、语料库后期维护及扩容发展

语料库建成后,需不断进行日常维护和升级以适应新的软硬件和用户需求的改变。国际传播相关的语料库会随着各类活动的开展而不断更新,以确保其代表性、时效性。

语料库后期发展可与多国成熟语料库展开横向多元合作,扩大语料来源和基础,实现国际合作共享,促进文化共通;可与国外语料库建设开发者互相学习研讨,促进合作共赢;可与对象国高校和政府文化部门等语料库潜在使用消费者展开更多交流合作。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇