博舍

人工智能识别技术你了解多少 人工智能技术是基于 提供的储存资源

人工智能识别技术你了解多少

人工智能识别技术是指通过计算机、照相机、扫描仪等设备,自动获取并识别出目标指令、数据等信息的技术手段。最早起源于声控技术(语音识别技术),声控技术曾被广泛应用于智能手机的控制和互动中,其核心是将人的语音识别出来,与手机指令集进行对比,从而控制手机。

根据识别对象是否具有生命特征,人工智能识别技术主要可分为两类:有生命识别和无生命识别。

有生命人工智能识别技术实质是指与人体生命特征存在一定关联的技术,包括语音识别、指纹识别、人脸识别、虹膜识别等。语音识别技术工作原理是基于对识别者自身发出语音的科学有效识别,正确识别出语音的内容,或者通过语音判断出说话人的身份(说活人识别);人工智能指纹识别技术在实践应用中,其工作原理是通过对人体指纹展开智能识别,最终正确判断识别出指纹所属的对应的人,从而满足实际需求;人工智能人脸识别技术是基于对人的脸部展开智能识别,对人的脸部不同结构特征进行科学合理检验,最终明确判断识别出检验者的实际身份;虹膜识别是通过虹膜的特征判断其实际身份。

无生命识别技术实质是指与人体生命特征不存在任何关联的技术,该项技术主要包括射频识别技术、智能卡技术、条形码识别技术。射频识别技术的工作核心是无线电磁波,其具体的工作原理是:无线电信号在电磁场下进行传送,完成数据和标签的识别;条形码识别技术包括一维码技术和二维码技术,二维码技术是在一维码技术基础之上发展出来的,给数据储存留下的空间更大,同时还可以纠错,在信息标示和信息采集中具有十分有效的运用;智能卡识别技术的识别对象主要是智能卡,智能卡主要是由集成电路板组成的,其工作主要是针对数据展开的运算和储存,通过将计算技术良好的融入到智能卡当中,针对数据进行的各种工作都做到了高效完成。

人工智能识别技术的应用非常广泛,而且不同种类的人工智能识别技术已经应用到了社会各领域,例如在语言翻译、面部识别等多个社会活动中都能够看到计算机人工智能的参与。除此之外,二维码识别和使用是人工智能识别技术运用的最典型的方式,它的利用主要是以二维码的形式生成程序和指令,在用户的移动终端屏幕上生成黑白格子拼接的平面图形,这些平面图形的分布通常来说具有一定的规律性,通过各种图形的排列组合,二维码图案具有唯一性,因此用户可以对二维码图案进行保存和记录。

我们相信,随着研究人员不断地对人工智能的有关技术进行优化和创新,人工智能识别技术将会更大程度地满足人们工作和生活需求。

本文由北京信息科技大学通信学院副教授李红莲进行科学性把关。

科普中国中央厨房

新华网科普事业部

科普中国-科学原理一点通

联合出品

更多精彩内容,请下载科普中国客户端。

 

作者:尹茹 [责任编辑:魏承瑶]

人工智能语料库技术是什么来看科普!

原创贺潇潇网络传播杂志

国际传播人工智能翻译语料库是指基于互联网平台,运用以神经机器翻译技术为基础的人工智能翻译技术,对国际传播等相关领域的语料进行数据化处理和加工,建立系统对外传播党政文献,领导人著作、讲话及外宣图书,期刊及网络新闻等宣传内容为主的语料数据库,并在此基础上建立国际传播综合人工智能语料库。

国内外人工智能

语料库技术发展现状

经过60多年的演进,特别是在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术以及经济社会发展强烈需求的共同驱动下,人工智能加速发展,呈现出人机协同、深度学习、跨界融合、群智开放、自主操控等新特征,推动经济社会各领域从数字化、网络化向智能化加速跃升。

作为人工智能重要相关学科,自然语言处理技术(NLP)是研究人与计算机交互的语言问题的一门学科,只有当计算机具备了自然语言的处理能力,才可称其为真正的人工智能。

20世纪90年代以来,中国的自然语言处理技术进入快速发展时期,一系列商品化的系统推向市场,新的研究内容、新的应用领域也在不断探索中。

相关研究均从语音和文本两方面进行,基础性研究主要集中在语言学、数学、计算机科学等领域,比如消除歧义、语法形式化、计算语言学理论基础以及语言资源库等;应用性研究主要集中在一些需要应用自然语言处理技术的领域中,比如信息检索、文本分类、自动文摘、机器翻译等。

目前,词法、句法、语义分析等基础理论的研究和语言资源库的建设依然是研究的重点,这一类别的项目几乎占据项目总数的“半壁江山”。

人工智能技术研究领域的机器翻译类研究是近年来的热点,而自然语言理解以及术语数据库、键盘输入、音字转换等其他类别的研究相对较少。从长远看,机器翻译是自然语言处理领域中一个相当重要的部分,直到现在,国内对高质量机器翻译系统仍然有相当大的需求。

人工智能促进语言服务发展过程中,作为覆盖范围及应用领域日益广泛的语料库,在提高翻译教学质量、培养优秀译员及促进计算机辅助翻译中发挥着重要作用。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库。前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域;后者将表述同样内容的不同语言文本收集在一起,多用于语言对比研究。

目前已经积累的语料库包括:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库的多语言平行语料数据、短消息服务(SMS)语料等。

语料库有三个基本特征:一是语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;二是语料库是承载语言知识的基础资源,但并不等于语言知识;三是真实语料需要经过加工(分析和处理),才能成为有用的资源。目前,国际和国内已有大量建成的语料库。

英国和美国的语料库建设走在世界前列,如BNC英国国家语料库、美国当代英语语料库。我国外语语料库建设多集中于外语口译、教学等领域,语种以英语居多,比如中国学习者英语语料库及中国英语学习者口语语料库等,实施单位多为如高校科研机构等,针对国际传播的专项人工智能语料库建设仍为空白。

2018年11月7日,在浙江乌镇举行的第五届世界互联网大会“互联网之光”博览会会场内展示的搜狗翻译宝Pro。供图/视觉中国

人工智能语料库解决

国际传播两个主要矛盾

1

翻译及多语报道人力不足制约国际传播发展

经调研,从2013年起,我国整体翻译业务的“中译外”业务量比例开始显著高于“外译中”业务量,同年党中央提出“一带一路”倡议,极大地拓展了向国际社会展示自己和对外交流的资源和实力。

然而翻译人才,尤其是“中译外”人才严重匮乏,其中“一带一路”沿线国家小语种人才缺口较大等问题严重制约中国特色政治话语体系的全面外译以及我国国际话语权地位的提升。

“一带一路”沿线国家所使用的官方语言及主要民族语言有60余种,2013年“一带一路”倡议提出时,我国高校外语专业招生语种只覆盖了其中20种,而且11个小语种人数不超过100人,其中8个语种在50人以内。

截至目前,我国尚未有高校开设的语种有18种,仅有一所高校开设的语言有20种,而且已开设的一些语种也存在人才储备不足的情况。在国际传播方面,我国懂新闻、懂传播技术同时又精通外语的“三通”复合型语言服务人才更加稀缺。与此同时,可有效弥补多语、小语种人才紧缺的人工智能翻译软件应用仍缺乏专业性,且翻译质量精准度较低。

我国日益提高的国际话语权建设需求与翻译和多语报道人才培养不平衡不充分矛盾突出,因此,亟须建设大量纳入优秀“中译外”精准语料的数据库,解放国际传播翻译写作人力,为国际传播能力建设解决束缚生产力发展的瓶颈性障碍,促进我国国际话语权综合地位提升,推动中华优秀传统文化创造性转化、创新性发展。

2

人工智能机器翻译推广受语料库瓶颈阻碍

现有的人工智能机器翻译虽然发展迅速,甚至可以在某些程度帮助提高效率,但由于缺少国际传播领域专业语料,模块训练无法正常实施,产生的成果无法为外宣工作服务。据调查,目前国内对外开放的语料库以高校研究为主,提供给广大外宣工作者使用的精准语料库资源严重不足。

作为机器翻译发展重要基础的外语语料库建设成为人工智能机器翻译推广的瓶颈问题。但值得一提的是,目前国际传播专项语料库建设虽具备基础语料,但仍有大量的语料资源散落,亟须整理整合。这些陈旧性历史资料为数不少,有些已经处于濒危状态,亟待保护性整理开发。

随着自然语言处理、知识库等人工智能技术在新闻传播领域的应用实践,国外媒体纷纷尝试使用机器写稿等先进技术。

《纽约时报》数字部门开发了机器人编辑Blossomblot,每天推送300篇文章,每篇文章的平均阅读量是普通文章的38倍,此外,《纽约时报》还会在财报季、运动比赛报道的时候使用机器人来写稿;路透社也在发表机器撰写的文章,该系统负责人在一次盲测中,认为机器撰写的作品比人类作品更具可读性。

国际传播基于人工智能语料库技术实现跨越式发展,将有利于我国进一步树立国际话语权优势。

一是语料库技术能在战争、疫情条件下,实现冗余信息过滤和有效信息抓取,提高采访、写作效率;二是可对国际受众做行为分析和兴趣等全息画像,深层了解受众,实现精准投放;三是语料库技术能为外宣稿件做综合管理统计和分析规划,研究数据可辅助制定优化战略。

国际传播翻译语料库建设

四大途径

国际传播人工智能语料库将立足于各大外事、外宣单位70多年来多媒体对外说明中国的多语资源,一期建设预计完成涉及12个外语语种,包含5000万条语料,数据类型从词、句对、语篇到文章、期刊和书籍的优质语料数据库。

依据国际传播工作需要,在不包含中文对照的多语比较语料库中,将按照语言使用国家行政区域划分为东亚、中亚、西亚,非洲,南美、北美,东欧、西欧及大洋洲等。

语料库建设可采用人工智能检索技术,包含小到词典功能,大到语句、语篇的关联,可以分政治经济、外交军事、人文社科、科学技术和文化娱乐等类型检索搜集语篇摘要、文章和书籍,系统还将初步涉及人工智能完成稿件写作的基础功能,完成机器模仿人脑思维翻译和写作对外传播稿件等功能设计。

1

语料库建设须做好前期准备

首先,语料库建设将开发使用语料库分析统计软件,该软件应具有索引、词表生成、主题词计算、搭配和词族提取等多种功能,这为本项目的开展提供强大的技术支持。

其次,语料库建设以阅读大量专业文献资料为基础,并借鉴权威语料库建设经验。将语料类别依据是否有中文对照可区分为平行语料库及比较语料库,前者可多以中国外文局、中国日报、中国国际广播电台等历史数据为主,涉及外文出版社、《今日中国》及《人民中国》中外文对照语料;后者多以《北京周报》、新华社对外部、《求是》(英文版)、《环球时报》等外文语料为主。

2

语料库架构及功能设计和语料加工

国际传播人工智能语料库可通过多种方式进行文本采集,如大量分析真实历史语言数据、利用网络现有语料资源等。

语料库可涉及多种题材,如政治、经济及文化术语和科技专利翻译相关名词等,涉及语料库题材、规模、样本的大小、切分标注标准等;此外还应充分考虑到语料代表性、平衡性、一致性、标签集、描述元语言等诸多要素。

3

通过中央机关和国家外事外宣部门历史资料广泛收集语料

首先,在语料库的大体结构设计完成后,查询并收集关于“一带一路”各种国际传播的多类型相关语料的研究。

以“一带一路”为例,可以归纳的高频主题名词有合作、一带、一路、国家、丝绸之路、愿景、开放、贸易、发展、互联、互利共赢、投资、亚洲、文化、机制、地区、21世纪、合作、基础设施等。

同时,“一带一路”倡议中主题高频形容词及副词有“互相的、经济的、共同地、地区的、国际的、跨边界的、海上的、文化的、多边的”,这些词语在情态上具有很强的评价功能,它们在强调相互合作重要性的基础上进一步强调了构建命运、经济和责任共同体的重要性以及建设海上丝绸之路和多边文化交流的必要性。

其次,语料库还将时刻关注中央机关及国家外事外宣部门主要国际传播活动最新动向,不断收集有关词、固定搭配以及句子等。为了提高翻译质量,语料库在收录大量词、句的同时还将深入挖掘其文化内涵并将这些词、句进行有机整合。

4

语料库后期维护及扩容发展

语料库建成后,需不断进行日常维护和升级以适应新的软硬件和用户需求的改变。国际传播相关的语料库会随着各类活动的开展而不断更新,以确保其代表性、时效性。

语料库后期发展可与多国成熟语料库展开横向多元合作,扩大语料来源和基础,实现国际合作共享,促进文化共通;可与国外语料库建设开发者互相学习研讨,促进合作共赢;可与对象国高校和政府文化部门等语料库潜在使用消费者展开更多交流合作。

原标题:《人工智能语料库技术是什么?来看科普!》

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇