博舍

【详细解读】知识图谱的这一人工智能技术分支的概念、技术、应用、与发展趋势 人工智能技术是基于提供的存储资源的技术对吗

【详细解读】知识图谱的这一人工智能技术分支的概念、技术、应用、与发展趋势

文章目录一瞥知识图谱的概念与分类知识图谱的三大典型应用1、语义搜索2、智能问答3、可视化决策支持通用知识图谱与特定领域知识图谱1、通用知识图谱2、领域知识图谱应用知识工程的五个发展阶段1)1950-1970时期:图灵测试—知识工程诞生前期2)1970-1990时期:专家系统—知识工程蓬勃发展期3)1990-2000时期:万维网1.04)2000-2006时期:群体智能5)2006年至今:知识图谱—知识工程新发展时期把知识变成图谱一共需要花几步?1、知识表示与建模2、知识获取3、知识融合4、知识图谱查询和推理计算发展趋势与挑战知识图谱(KnowledgeGraph)是人工智能的重要分支技术,它在2012年由谷歌提出,成为建立大规模知识的杀手锏应用,在搜索、自然语言处理、智能助手、电子商务等领域发挥着重要作用。知识图谱与大数据、深度学习,这三大“秘密武器”已经成为推动互联网和人工智能发展的核心驱动力之一。

本期我们推荐来自清华大学人工智能研究院、北京智源人工智能研究院、清华-工程院知识智能联合研究中心联合推出的人工智能知识图谱报告,详细解读了知识图谱的这一人工智能技术分支的概念、技术、应用、与发展趋势。

知识图谱的概念与分类

知识图谱(KnowledgeGraph)于2012年由谷歌提出并成功应用于搜索引擎当中。它以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。

知识图谱的分类方式很多,例如可以通过知识种类、构建方法等划分。从领域上来说,知识图谱通常分为两种:通用知识图谱、特定领域知识图谱。

▲知识图谱示意图

常见的知识图谱示意图主要包含有三种节点:实体、概念、属性。

实体指的是具有可区别性且独立存在的某种事物。如某一个人、某一座城市、某一种植物、某一件商品等等。世界万物由具体事物组成,此指实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。

概念指的是具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。

属性则用于区分概念的特征,不同概念具有不同的属性。不同的属性值类型对应于不同类型属性的边。如果属性值对应的是概念或实体,则属性描述两个实体之间的关系,称为对象属性;如果属性值是具体的数值,则称为数据属性。

知识图谱的三大典型应用

现在以商业搜索引擎公司为首的互联网巨头已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,并对搜索引擎形态日益产生重要的影响。如何根据业务需求设计实现知识图谱应用,并基于数据特点进行优化调整,是知识图谱应用的关键研究内容。

知识图谱的典型应用包括语义搜索、智能问答以及可视化决策支持三种。

1、语义搜索

当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索,称之为语义搜索。

语义搜索可以利用知识图谱可以准确地捕捉用户搜索意图,进而基于知识图谱中的知识解决传统搜索中遇到的关键字语义多样性及语义消歧的难题,通过实体链接实现知识与文档的混合检索。

语义检索需要考虑如何解决自然语言输入带来的表达多样性问题,同时需要解决语言中实体的歧义性问题。同时借助于知识图谱,语义检索需要直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。

2、智能问答

问答系统(QuestionAnswering,QA)是信息服务的一种高级形式,能够让计算机自动回答用户所提出的问题。不同于现有的搜索引擎,问答系统返回用户的不再是基于关键词匹配的相关文档排序,而是精准的自然语言形式的答案。

智能问答系统被看作是未来信息服务的颠覆性技术之一,亦被认为是机器具备语言理解能力的主要验证手段之一。

智能问答需要针对用户输入的自然语言进行理解,从知识图谱中或目标数据中给出用户问题的答案,其关键技术及难点包括准确的语义解析、正确理解用户的真实意图、以及对返回答案的评分评定以确定优先级顺序。

3、可视化决策支持

可视化决策支持是指通过提供统一的图形接口,结合可视化、推理、检索等,为用户提供信息获取的入口。例如,决策支持可以通过图谱可视化技术对创投图谱中的初创公司发展情况、投资机构投资偏好等信息进行解读,通过节点探索、路径发现、关联探寻等可视化分析技术展示公司的全方位信息。

可视化决策支持需要考虑的关键问题包括通过可视化方式辅助用户快速发现业务模式、提升可视化组件的交互友好程度、以及大规模图环境下底层算法的效率等。

通用知识图谱与特定领域知识图谱1、通用知识图谱

通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极广。由于现实世界的知识丰富多样且极其庞杂,通用知识图谱主要强调知识的广度,通常运用百科数据进行自底向上(Top-Down)的方法进行构建,下图展示的即是常识知识库型知识图谱。

国外的DBpedia使用固定的模式从维基百科中抽取信息实体,当前拥有127种语言的超过两千八百万实体以及数亿RDF三元组;YAGO则整合维基百科与WordNet的大规模本体,拥有10种语言约459万个实体,2400万个事实。

国内的Zhishi.me从开放的百科数据中抽取结构化数据,当前已融合了包括百度百科、互动百科、中文维基三大百科的数据,拥有1000万个实体数据、一亿两千万个RDF三元组。

2、领域知识图谱应用

领域知识图谱常常用来辅助各种复杂的分析应用或决策支持,在多个领域均有应用,不同领域的构建方案与应用形式则有所不同。

以电商为例,电商知识图谱以商品为核心,以人、货、场为主要框架。目前共涉及9大类一级本体和27大类二级本体。

一级本体分别为:人、货、场、百科知识、行业竞对、品质、类目、资质和舆情。人、货、场构成了商品信息流通的闭环,其他本体主要给予商品更丰富的信息描述。

上图描述了商品知识图谱的数据模型,数据来源包含国内-国外数据,商业-国家数据,线上-线下等多源数据。目前有百亿级的节点和百亿级的关系边。

电商知识图谱,这个商品“大脑”的一个应用场景就是导购。而所谓导购,就是让消费者更容易找到他想要的东西,比如说买家输入“我需要一件漂亮的真丝丝巾”,“商品大脑”会通过语法词法分析来提取语义要点“一”、“漂亮”、“真丝”、“丝巾”这些关键词,从而帮买家搜索到合适的商品。

在导购中为让发现更简单,“商品大脑”还学习了大量的行业规范与国家标准,比如说全棉、低糖、低嘌呤等。

此外,它还有与时俱进的优点。“商品大脑”可以从公共媒体、专业社区的信息中识别出近期热词,跟踪热点词的变化,由运营确认是否成为热点词,这也是为什么买家在输入斩男色、禁忌之吻、流苏风等热词后,出现了自己想要的商品。

最后,智能的“商品大脑”还能通过实时学习构建出场景。比如输入“海边玩买什么”,结果就会出现泳衣、游泳圈、防晒霜、沙滩裙等商品。

知识工程的五个发展阶段

知识图谱技术属于知识工程的一部分。1994年,图灵奖获得者、知识工程的建立者费根鲍姆给出了知识工程定义——将知识集成到计算机系统,从而完成只有特定领域专家才能完成的复杂任务。

回顾知识工程这四十多年来的发展历程,我们可以将知识工程分成五个标志性的阶段:前知识工程时期、专家系统时期、万维网1.0时期、群体智能时期、以及知识图谱时期,如下图所示。

1)1950-1970时期:图灵测试—知识工程诞生前期

这一阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。

这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。

2)1970-1990时期:专家系统—知识工程蓬勃发展期

由于通用问题求解强调利用人的求解问题的能力建立智能系统,但是忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。从70年开始,人工智能开始转向建立基于知识的系统,通过“知识库+推理机”实现机器智能。

这一时期知识表示方法有新的演进,包括框架和脚本等80年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。

3)1990-2000时期:万维网1.0

在1990年到2000年期间,出现了很多人工构建大规模知识库,包括广泛应用的英文WordNet,采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的HowNet。

Web1.0万维网的产生为人们提供了一个开放平台,使用HTML定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。W3C提出的可扩展标记语言XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。

4)2000-2006时期:群体智能

万维网的出现使得知识从封闭知识走向开放知识,从集中构建知识成为分布群体智能知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。

这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。

5)2006年至今:知识图谱—知识工程新发展时期

“知识就是力量”,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。从2006年开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。

当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛使用。典型的例子是谷歌收购Freebase后在2012年推出的知识图谱(KnowledgeGraph),Facebook的图谱搜索,MicrosoftSatori以及商业、金融、生命科学等领域特定的知识库。

上表中展示的是知识图谱领域10个相关重要国际学术会议,这些会议为知识图谱领域的研究方向、技术趋势与学者研究成果提供重要信息。

把知识变成图谱一共需要花几步?

知识图谱技术是知识图谱建立和应用的技术,参考中国中文信息学会语言与知识计算专委会发布的《知识图谱发展报告2018年版》,本报告将知识图谱技术分为知识表示与建模、知识获取、知识融合、知识图谱查询和推理计算、知识应用技术。

1、知识表示与建模

知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。

目前,随着自然语言处理领域词向量等嵌入(Embedding)技术手段的出现,采用连续向量方式来表示知识的研究(TransE翻译模型、SME、SLM、NTN、MLP,以及NAM神经网络模型等)正在逐渐取代与上述以符号逻辑为基础知识表示方法相融合,成为现阶段知识表示的研究热点。更为重要的是,知识图谱嵌入也通常作为一种类型的先验知识辅助输入到很多深度神经网络模型中,用来约束和监督神经网络的训练过程,如下图所示。

相比于传统人工智能,知识图谱时代基于向量的知识表示方法不仅能够以三元组为基础的较为简单实用的知识表示方法满足规模化扩展的要求,还能够作为大数据分析系统的重要数据基础,帮助这些数据更加易于与深度学习模型集成。

同时,随着以深度学习为代表的表示学习的发展,面向知识图谱中实体和关系的表示学习也取得了重要的进展。知识表示学习将实体和关系表示为稠密的低维向量实现了对实体和关系的分布式表示,已经成为知识图谱语义链接预测和知识补全的重要方法。

知识表示学习是近年来的研究热点,研究者提出了多种模型,学习知识库中的实体和关系的表示。不过其中关系路径建模工作较为初步,在关系路径的可靠性计算、语义组合操作等方面还有很多细致的考察工作需要完成。

2、知识获取

知识获取包括了实体识别与链接、实体关系学习、以及事件知识学习。

1)实体识别与链接是知识图谱构建、知识补全与知识应用的核心技术,也是海量文本分析的核心技术,为计算机类人推理和自然语言理解提供知识基础。

实体识别是文本理解意义的基础,也就是识别文本中指定类别实体的过程,可以检测文本中的新实体,并将其加入到现有知识库中。

2)实体关系识别是知识图谱自动构建和自然语言理解的基础。实体关系定义为两个或多个实体间的某种联系,用于描述客观存在的事物之间的关联关系。实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。

实体关系抽取分为预定义关系抽取和开放关系抽取。预定义关系抽取是指系统所抽取的关系是预先定义好的,如上下位关系、国家—首都关系等。开放式关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。

3)事件知识学习,就是将非结构化文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用意义重大。

事件是促使事物状态和关系改变的条件,是动态的、结构化的知识。目前已存在的知识资源(如谷歌知识图谱)所描述多是实体以及实体之间的关系,缺乏对事件知识的描述。

3、知识融合

知识图谱可以由任何机构和个人自由构建,其背后的数据来源广泛、质量参差不齐,导致它们之间存在多样性和异构性。语义集成的提出就是为了能够将不同的知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序间的交互建立操作性。

常用的技术包括本体匹配(也称为本体映射)、实力匹配(也称为实体对齐、对象公指消解)以及知识融合等。

一个语义集成的常见流程,主要包括:输入、预处理、匹配、知识融合和输出5个环节,如上图所示。

众包和主动学习等人机协作方法是目前实例匹配的研究热点。这些方法雇佣普通用户,通过付出较小的人工代价来获得丰富的先验数据,从而提高匹配模型的性能。

随着表示学习技术在诸如图像、视频、语言、自然语言处理等领域的成功,一些研究人员开始着手研究面向知识图谱的表示学习技术,将实体、关系等转换成一个低维空间中的实质向量(即分布式语义表示),并在知识图谱补全、知识库问答等应用中取得了不错的效果。

与此同时,近年来强化学习也取得了一些列进展,如何在语义集成中运用强化学习逐渐成为新的动向。

4、知识图谱查询和推理计算

知识图谱以图(Graph)的方式来展现实体、事件及其之间的关系。知识图谱存储和查询研究如何设计有效的存储模式支持对大规模图数据的有效管理,实现对知识图谱中知识高效查询。

知识推理则从给定的知识图谱推导出新的实体跟实体之间的关系,在知识计算中具有重要作用,如知识分类、知识校验、知识链接预测与知识补全等。

知识图谱推理可以分为基于符号的推理和基于统计的推理。

在人工智能的研究中,基于符号的推理一般是基于经典逻辑(一阶谓词逻辑或者命题逻辑)或者经典逻辑的变异(比如说缺省逻辑)。基于符号的推理可以从一个已有的知识图谱推理出新的实体间关系,可用于建立新知识或者对知识图谱进行逻辑的冲突检测。

基于统计的方法一般指关系机器学习方法,即通过统计规律从知识图谱中学习到新的实体间关系。

发展趋势与挑战

整体而言,知识图谱领域的发展将会持续呈现特色化、开放化、智能化的趋势,为更好发挥现有知识图谱知识表达、知识资源优势,需与其他技术(信息推荐、事理图谱、机器学习、深度学习等)。

虽然当下互联网巨头们已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,但是我们也强烈地感受到,知识图谱还处于发展初期,大多数商业知识图谱的应用场景非常有限,例如搜狗、知立方更多聚焦在娱乐和健康等领域。

同时,根据各搜索引擎公司提供的报告来看,为了保证知识图谱的准确率,仍然需要在知识图谱构建过程中采用较多的人工干预。

如何合理设计表示方案,更好地涵盖人类复杂化、多样化的知识?如何准确、高效地从互联网大数据萃取知识?如何将存在大量噪声和冗余的知识有机融合起来,建立更大规模的知识图谱?如何有效实现知识图谱的应用,利用知识图谱实现深度知识推理,提高大规模知识图谱计算效率和应用场景?

在未来的一段时间内,知识图谱将是大数据智能的前沿研究问题,这些重要的开放性问题亟待学术界和产业界协力解决。

下面两图是AMiner数据平台绘制的知识图谱领域近期与全局热点词汇。

由以上两图可知,知识库、信息检索、数据挖掘、知识表示、社会网络等方向在知识图谱领域的热度长盛不衰。

除此之外,信息提取、查询应答、问题回答、机器学习、概率逻辑、实体消歧、实体识别、查询处理、决策支持等方向的研究热度在近年来逐渐上升,概念图、搜索引擎、信息系统等方向的热度逐渐消退。

在知识图谱的驱动下,以智能客服、智能语音助手等为首的AI应用正成为首批人工智能技术落地变现的先锋部队,知识图谱也因此成为了各大人工智能与互联网公司的兵家必争之地,它与大数据、深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。

不过正如报告中提到的,目前为了保证准确率,知识图谱在构建过程中仍然需要在采用较多的人工干预;同时,知识图谱还处于发展初期,商业应用场景有限,有待进一步开拓

来自http://www.elecfans.com/d/877541.html

《人工智能技术在网络安全方向的应用》学习笔记

人工智能技术在网络安全方向的应用摘要:网络安全态势感知模型由态势要素提取、态势理解和态势预测组成,安全态势预测是整个安全态势感知模型中最高层次的技术,对网络安全的防御有着重要的作用。该技术与实现人工智能的基础条件相吻合,通过不同种类的安全设备、网络设备以及他们的运行日志,积累了大量的数据可供机器深度学习,对构建好的安全模型进行模拟训练,依靠分布式计算的强大数据处理能力,及时判别当前安全态势,提供在线处置方案并予以实施。同样,人工智能技术也是网络安全态势感知与在线处置的最佳选择,没有人工智能技术的支持,网络安全态势感知很难得到飞跃性质的发展,在线处置的效果也会因处置不及时而大打折扣。

关键词:人工智能网络安全网络安全态势一,引言——当前网络安全时代背景:由于移动设备和物联网设备的几何式增长,伴随着互联网的普及和网络应用的不断深入,网络的范围从广度和深度上都有了极大的扩充,涵盖了国家、社会和个人的方方面面,网络边界也由过去的清晰发展到现在的模糊,甚至到无边界。而互联网本身的开放性、国际性和自由性在增加其使用的便捷性,导致社会和经济活动越来越多地依托在网络之上,目前人们已经习惯使用网络提供的各种服务,参与各种网络活动,如电子政务、电子商务等。但安全却成为影响网络效能的重要问题,网络的普及、应用的暴增和不同网络的交织及应用人员安全意识的薄弱,因此不法人员越来越容易利用在网络上无意识泄露的个人隐私,造成网络安全威胁形势越来越严峻。

二,网络安全的内涵和主要问题网络面临的威胁大体可分为对网络中数据信息的危害和对网络设备的危害,在这里对前者进行分析。(一)广义上网络存在的威胁网络存在的威胁主要表现在以下几个方面:(1)利用网络传播病毒:通过网络传播计算机病毒,由于其强力的传播性使其破坏性大大高于单机系统,而且用户很难防范。计算机病毒具有较强的隐蔽性,在互联网不断发展的今天,各种新型病毒层出不穷,传播速度快,破坏力强,危害大。如前几年发生的WannaCry蠕虫勒索病毒事件,严重影响社会运行的正常秩序,致使英国一些医院不一些医院不能给病人做手术,而俄罗斯一些ATM取款机也受到了该病毒的感染无法取款,造成严重的危机管理问题。(2)非授权访问:没有预先经过同意,就使用网络或计算机资源被看作非授权访问,如有意避开系统访问控制机制,对网络设备及资源进行非正常使用,或擅自扩大权限,越权访问信息。它主要有以下几种形式:假冒、身份攻击、非法用户进入网络系统进行违法操作、合法用户以未授权方式进行操作等。(3)冒充合法用户造成的信息泄漏或丢失:指核心数据在有意或无意中被泄漏,例如信息在传输中丢失或泄漏(不法分子们利用搭线窃听等方式可截获机密信息,或通过对信息流向、流量、通信频度和长度等参数的分析,推出账号密码等重要信息。)。(4)破坏数据完整性:以非法手段窃得对数据的使用权,删除、修改、插入或重发某些重要信息,以取得有益于攻击者的响应;恶意添加,修改数据,以干扰用户的正常使用。(5)拒绝服务攻击,干扰系统正常运行:它不断对网络服务系统进行干扰,改变其正常的作业流程,执行无关程序使系统响应减慢。除此之外,Internet非法内容也形成了对网络的另一大威胁。有关部门统计显示,有30%-40%的Internet访问是与工作无关的,甚至有的是去访问色情、暴力、反动等站点。在这样的情况下,Internet资源被严重浪费。对互联网来说,面对形形色色、良莠不分的网络信息,如不具备识别和过滤作用,不但会造成大量非法内容出入,占用大量信道资源,造成传输堵塞等问题,而且某些含有暴力、色情、反动消息等内容的不良网站,将极大地危害青少年的身心健康,甚至危害社会和谐稳定。(二)近年来的网络安全威胁变化近年来随着互联网技术的快速发展,网络安全威胁也发生了三大重要变化:(1)攻击动机发生改变。早期的网络攻击多出于个人的好奇心,近乎一种无目的性的行为,而近年来的网络攻击或为由资金充足、训练有素的军队发起、以支持网络战,或是由复杂的犯罪组织发动,动机极具目的性与恶意性。(2)攻击的范围扩大、速度提高。史上第一起网络攻击利用了手动发现的软件漏洞,感染了单个计算机。而如今的网络攻击则利用自动识别的漏洞,可由黑客新手打包好之后在互联网上自动传播,可影响全球的计算机、平板电脑、智能手机和其他设备,其攻击范围之大不言而喻。(3)入侵的潜在影响急剧扩大。全球设备和人员联网意味着网络攻击不仅会影响数字世界,还会通过物联网和无处不在的社交媒体平台影响到现实世界,瘫痪网络会影响正常用户的使用,使合法用户被排斥而不能进入计算机网络系统或不能得到相应的服务。因此,互联网飞速发展的新时代对安全提出了更高的要求。但要实现网络安全,需借助于特征库的及时更新,然而特征值的获取必然落后于安全事件的发生,若无法第一时间给以在线处置方案则无任何作用,而且会使特征库越来越庞大,进而导致防护检测效率越来越低下,最终基于特征库的安全事件漏报、误报越来越严重严重,形成恶性循环。所以,找到帮助网络安全突破这一瓶颈的新技术就显得越发亟待。为了解决这些问题,基于人工智能的网络安全态势感知与在线处置新技术应运而生。

三、基于人工智能的信息网络安全态势感知技术介绍(一)预测态势算法预测态势主要是指利用感知系统对当前信息的收集调查,对于所预测内容的主要有关因素进行分析,并结合一定的历史资料、预测经验模型以及科学的理论方法对未来一段时期内可能出现的安全态势变化进行预测。目前,人工智能展开的安全态势预测方法主要分为以下两种:第一是专家系统预测方法,是指一种利用人工智能模仿特定领域内的人类专家的思维来对安全态势进行预测,此种预测方法需要一个具备丰富专业知识与人类预测经验的智能专家系统,能够求解较为复杂的问题,此预测方法具有易于理解、避免过于繁复的计算、逐渐丰富自身预测经验使预测精准度不断提升等优势;第二是人工神经网络的预测方法,目前所应用的人工神经网络模型包括BP网络、RBF网络、Hopfield网络等,人工神经网络虽然在近年来与小波分析、粗糙/模糊集、灰色理论以及遗传、进化、免疫等算法工具相结合取得了比较好的应用效果,但是仍旧存在局部最优解的问题,即在面对优化问题时,由于问题过于复杂,所需考虑因素较多,难以在短时间内完成全局最优解,导致优化结果倾向于局部最优解的现象。(二)表征态势指标体系在对信息网络安全态势进行预测时,需要制定出一鯇整的指标体系,以此指标体系为基础为人工智能进行态势预判时提供参考标准,并得出合理预测结果,所以此指标体系其实是人工智能工作的依托。目前所应用的指标体系中主要包括以下三类指标:第一是基础运行指标,是表征当前网络性能、传输设备负载、物流环境的一系列指标,代表着当前企业所具备的基础设施的基本情况。第二是网络威胁指标,该指标能够直接反映出网络中所潜在或已经出现的威胁,如病毒、垃圾邮件、钓鱼网站等,同时还能反映出网络被恶意攻击的程度和次数,如攻击强度、挂马密度等指数,人工智能可依据此指标。第三是网络脆弱性指标,表征的是网络整体上漏洞和脆弱性的情况,通过检测DNS服务器、核心路由器等关键设备的健康指数为安全态势预测提供基础数据。人工智能系统可依据此三项指标的检测结果为安全态势感知提供大量数据参考,既能够使系统识别危险难度减小,又能够使企业的信息网络问题反映更加直接,提醒技术人员及时对企业信息网络短板进行完善,使问题处理更加高效,令人工智能在安全态势感知方面的作用更加突出。(三)人工智能在该技术中的实现由于此感知技术基于人工智能所发展,所以能够运用大数据对所采集信息进行预处理,降低数据的后续处理难度。此技术主要运用了大数据技术中的Stream框架,此框架具备数据处理速度较快、扩展性与并发处理能力较强的优势。在具体的预处理活动中,将涉及以下几点内容:第一是数据归一,在Stream流中,系统将所收集的包括日志信息、数据流量等内容在内的数据进行统一处理,通过将其进行转化的方式使其适应系统应用方式,并作为系统进行后续分析的数据元。第二是情报知识库的关联,通过将情报库与知识库相关联的方式使企业获取到自身进行安全态势分析所需的支持信息,目的同样是为系统后续分析提供数据基础;第三是数据归并,系统通过计算分析引擎按照预置的事件流程框架将数据进行归并,在此活动中将所有事件处理完成后归纳进引擎入口并结合历史数据中的内容分析出此数据流中是否存在异常,从而触发警报。网络安全态势感知抛弃传统的特征库比对的预测方式,采用对行为特征的研判,利用获取的大量网络安全数据,采用大数据分析的方法,对网络安全给以分析、理解,建立网络安全算法模型,使用人工智能的深度学习技术,训练网络安全人工智能模型,主动发现安全威胁。对于网络安全态势感知检测到的威胁行为,在线处置系统与路由器、交换机、防火墙等网络设备和安全设备联动,限制网络连接,阻断攻击行为,隔离攻击源和攻击目的设备。对被攻击的设备进行安全态势评估,针对存在的安全隐患,采取防病毒处理、补丁安装、杩清扫、恶意软件清理等措施,待符合网络安全要求之后,恢复网络连接,开展相应服务,仍不能满足网络安全要求的设备,通知管理员进一步处理。对被动攻击源设备(被其他设备远程控制的被动充当攻击源的设备)采取与被攻击设备相同的策略进行安全加固,对主动攻击源设备(主动发起攻击的设备)除采取与被攻击设备相同的策略进行安全加固之外,检查使用人员的信息,分析是否为有意识的攻击行为,通知安全管理员进行相应处理,对于有意识的攻击行为者实行全网重点监视排查。对于各类攻击行为,在分析研判的基础上改进策略,采用人工智能深度学习技术,在实际运行处理安全故障过程中,自动修正网络安全态势感知和在线处置系统模型,提升在线处置能力,真正实现智慧安全地提升,降低人为的干预。值得注意的是,网络安全态势感知与在线处置收集的数据必须是无污染的有效数据,因为人工智能是依赖于数据的,大量的数据错误,训练出的模型必然是不正确的,故此数据的安全有效在机器学习领域至关重要。

四、人工智能在网络安全方面的技术优势人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何应用计算机模拟人类智能行为的基本理论、方法和技术。人工智能以庞大的有效数据为学习基础,培养、优化计算模型,在强大运算能力的加持下,模拟人类的智能行为。在语言处理、智能搜索、机器学习、知识获取、感知问题、神经网络等领域取得了较好的发展。人工智能在网络安全防范中可以实现以下功能:自动检测:人工智能(机器学习)可以帮助公司快速识别威胁并找到潜在风险之间的联系,从而消除流程中的人为错误。人工智能(机器学习)可以适应和学习经验和模式,而不是因果关系。今天,机器学习使机器自学成为可能。这意味着他们可以创建用于模式识别的模型,而不必等待人类开发它们。在开始采取适当的补救措施之前,训练过的AI可以利用推理来确定各种风险,例如可疑地址,奇怪文件等。异常检测:人工智能大大提高了识别网站可疑问题所需的时间。开发人员也在利用人工智能来识别那些在网站上有不良意图的人。这一过程被称为异常检测,有多种用途,其中网络安全位居榜首。根据人工智能技术,程序可以在短短几秒钟内分析大量访客,并根据他们的威胁级别和行为对其进行分类。更好的监视,搜索和分析:人工智能使公司和组织在其安全环境中拥有更大的可见性,并使它们能够提前应对威胁。由AI驱动的狩猎技术可以确定组织是否受到攻击,以便组织可以做好准备。安全认证:如果你的网站需要访客登录,需要输入表单,或者需要在网站后端提供另一层安全保障,人工智能可以更好地以很大的安全性进行认证。确保安全身份验证的一种方法是通过物理身份验证,其中人工智能使用不同的特征来识别一个人。例如,智能手机可以使用指纹扫描仪和面部识别来让你登录。这背后的过程需要程序分析关于你的脸和手指的主要数据点,以辨别登录是否真实。除此之外,人工智能还可以研究其他因素,以确定某个特定用户是否被授权登录某个技术设备。这项技术会检查你输入按键的方式、打字速度和拼写时的错误率。更快的响应时间:人工智能可以处理大量非结构化信息,从而以更高的效率提供见解。更重要的是,机器学习、人工智能可以更快地学习模式,从而加快响应时间,使其更快、更容易地在威胁造成问题之前阻止它们。一些领先的公司(例如IBM)正在网络安全中使用认知技术和AI,以使它们能够快速识别威胁并做出相应的响应。无差错的网络安全:与人类不同,人工智能在执行重复的任务时不会感到疲倦或无聊。因此,人为错误的风险大大降低。但是,人类需要与人工智能合作才能获得更好的结果。毫无疑问,人类提供了机器缺乏的常识和理性。但是,在非标准情况下,由AI设计的应用程序是更好的决策者。

五、人工智能在网络安全方面的发展前景及问题(一)积极利用人工智能赋能网络安全近年来,Agent系统、神经网络、顾问系统、机器学习等人工智能技术在网络安全防御中涌现出很多研究成果。总体而言,目前人工智能重点应用在网络安全入侵检测、恶意软件检测、态势分析等领域。

1.入侵检测技术入侵检测技术是利用各种手段方式,对异常网络流量等数据进行收集、筛选、处理,自动生成安全报告提供给用户,如DDoS检测、僵尸网络检测。目前神经网络、分布式Agent系统、顾问系统等都是重要的人工智能入侵检测技术。这也是当前网络安全领域使用最普遍的人工智能技术。传统的入侵检测技术在检测速度、检测范围和体系结构等方面均存在短板。为了弥补这些短板,智能入侵检测系统借助人工智能中的模糊信息识别、规则产生式专家系统、数据挖掘和人工神经网络等技术,提升入侵检测效率,并且可以最大程度地抵御来自于各方病毒入侵所带来的潜在威胁。

2.垃圾邮件阻止系统现如今计算机网络快速发展,电子邮件被广泛应用,为人们的工作以及商务活动的开展提供便利。对于一些不法分子,利用这一特点在其注入病毒,当邮件传递时,病毒就会导入网络中,打开邮件或链接时,病毒就会注入到计算机中,影响计算机的运行,导致信息的丢失或损坏。针对这一情况,人工智能应用在反垃圾邮件系统中,除了可以保护用户数据的安全外,最主要的是可以检测扫描用户邮件并进行智能识别,及时发现其中的敏感信息,同时采取有效防范措施阻止恶意邮件,使用户免受垃圾邮件骚扰之忧。

3.智能防火墙系统防火墙作为网络安全设备已被普遍应用。防火墙圈定一个保护的范围,并假定防火墙是唯一的出口,然后防火墙来决定是放行还是封锁进出的包。传统的防火墙有一个重大的理论假设―如果防火墙拒绝某些数据包的通过,则一定是安全的,因为这些包已经被丢弃。但实际上防火墙并不保证准许通过的数据包是安全的,防火墙无法判断一个正常的数据包和一个恶意的数据包有什么不同,而是要求管理员来保证该包是安全的。而智能防火墙引用的识别技术,可以很好地自行分析和处理相应的数据,同时又能巧妙地融合代理技术和过滤技术,不但可以降低计算机对数据的运算量,还能拓宽监控范围,有效地拦截对网络有害的数据流,从而更好地保障网络环境的安全。

4.恶意软件防御预测性恶意软件防御技术通过使用机器学习和统计模型,寻找恶意软件家族特征,预测进化方向,提前进行防御。当前,在病毒恶意软件持续增加和勒索软件突发涌现的情况下,企业对于恶意软件的防护需求非常迫切,市场上涌现一批应用人工智能技术的相关产品系统。2016年9月,安全公司SparkCognition打造人工智能AI驱动的“认知”防病毒系统DeepArmor,可准确发现和删除恶意文件,保护网络免受未知网络安全威胁。(二)人工智能网络安全风险引发现实危害2019年,在被普遍视为解决安全问题的灵丹妙药的同时,人工智能带来的网络安全危害亦持续引发全球广泛关注。一方面,人工智能自身带来的网络安全风险不断。2019年3月,网络安全业内发现全球应用最为广泛的开源机器学习框架谷歌Tensorflow存在多处漏洞,有被安插后门等风险;同期,IBM被曝未经用户许可擅自使用图片分享网站Flickr上的100万张照片进行人脸识别算法训练,人工智能训练数据的获取方法和途径侵犯用户隐私问题再次被推上舆论风口浪尖;另一方面,人工智能的恶意利用导致网络攻防全面升级。随着人工智能技术依托的算法、大数据等以很低的成本进行复制和扩散,人工智能在有效赋能网络安全防御的同时,也为黑客实施网络攻击创造了有利条件。2019年,人工智能驱动的物联网网络攻击、语音模拟钓鱼欺诈、深度伪造(Deepfake)虚假视频等已在全球造成现实危害,基于人工智能的网络攻防正发展成为一场对抗节奏呈指数级递增的猫鼠游戏。六、总结大数据和5G时代下面临的安全威胁日益加剧。人工智能技术的飞速发展,给网络安全态势预测提供了强有力的技术支持。将机器学习、深度学习等人工智能算法应用于网络安全态势预测中,通过分析历史态势信息,得到准确的预测结果,具有广阔的研究与应用前景。但当前基于人工智能的网络安全态势预测仍存在着亟待解决的问题:在提高预测准确率的同时也需要提高数据的有效性,构建多样的预测模型,以及模型稳定性不强、训练时间过长、预测周期短等问题,未来的研究除了要继续提高模型的态势预测能力外,如何让人工智能技术更好的为对应问题提供解决方案,也是研究方向的重中之重,只有及时预测与及时处置高度结合,才能真正地让人工智能技术为网络空间安全保驾护航。然而在被普遍视为解决安全问题的灵丹妙药的同时,人工智能带来的网络安全危害持续引发全球广泛关注。随着人工智能自身带来的网络安全风险不断,如何确保人工智能在网络安全领域健康发展这一议题,引起了越来越多人的重点关注。

人工智能识别技术你了解多少

人工智能识别技术是指通过计算机、照相机、扫描仪等设备,自动获取并识别出目标指令、数据等信息的技术手段。最早起源于声控技术(语音识别技术),声控技术曾被广泛应用于智能手机的控制和互动中,其核心是将人的语音识别出来,与手机指令集进行对比,从而控制手机。

根据识别对象是否具有生命特征,人工智能识别技术主要可分为两类:有生命识别和无生命识别。

有生命人工智能识别技术实质是指与人体生命特征存在一定关联的技术,包括语音识别、指纹识别、人脸识别、虹膜识别等。语音识别技术工作原理是基于对识别者自身发出语音的科学有效识别,正确识别出语音的内容,或者通过语音判断出说话人的身份(说活人识别);人工智能指纹识别技术在实践应用中,其工作原理是通过对人体指纹展开智能识别,最终正确判断识别出指纹所属的对应的人,从而满足实际需求;人工智能人脸识别技术是基于对人的脸部展开智能识别,对人的脸部不同结构特征进行科学合理检验,最终明确判断识别出检验者的实际身份;虹膜识别是通过虹膜的特征判断其实际身份。

无生命识别技术实质是指与人体生命特征不存在任何关联的技术,该项技术主要包括射频识别技术、智能卡技术、条形码识别技术。射频识别技术的工作核心是无线电磁波,其具体的工作原理是:无线电信号在电磁场下进行传送,完成数据和标签的识别;条形码识别技术包括一维码技术和二维码技术,二维码技术是在一维码技术基础之上发展出来的,给数据储存留下的空间更大,同时还可以纠错,在信息标示和信息采集中具有十分有效的运用;智能卡识别技术的识别对象主要是智能卡,智能卡主要是由集成电路板组成的,其工作主要是针对数据展开的运算和储存,通过将计算技术良好的融入到智能卡当中,针对数据进行的各种工作都做到了高效完成。

人工智能识别技术的应用非常广泛,而且不同种类的人工智能识别技术已经应用到了社会各领域,例如在语言翻译、面部识别等多个社会活动中都能够看到计算机人工智能的参与。除此之外,二维码识别和使用是人工智能识别技术运用的最典型的方式,它的利用主要是以二维码的形式生成程序和指令,在用户的移动终端屏幕上生成黑白格子拼接的平面图形,这些平面图形的分布通常来说具有一定的规律性,通过各种图形的排列组合,二维码图案具有唯一性,因此用户可以对二维码图案进行保存和记录。

我们相信,随着研究人员不断地对人工智能的有关技术进行优化和创新,人工智能识别技术将会更大程度地满足人们工作和生活需求。

本文由北京信息科技大学通信学院副教授李红莲进行科学性把关。

科普中国中央厨房

新华网科普事业部

科普中国-科学原理一点通

联合出品

更多精彩内容,请下载科普中国客户端。

 

作者:尹茹 [责任编辑:魏承瑶]

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇