博舍

【知识图谱】深入浅出讲解知识图谱(技术、构建、应用) 知识图谱是人工智能的基石

【知识图谱】深入浅出讲解知识图谱(技术、构建、应用)

本文收录于《深入浅出讲解自然语言处理》专栏,此专栏聚焦于自然语言处理领域的各大经典算法,将持续更新,欢迎大家订阅!个人主页:有梦想的程序星空个人介绍:小编是人工智能领域硕士,全栈工程师,深耕Flask后端开发、数据挖掘、NLP、Android开发、自动化等领域,有较丰富的软件系统、人工智能算法服务的研究和开发经验。如果文章对你有帮助,欢迎关注、点赞、收藏、订阅。知识图谱的背景

2012年5月17日,Google正式提出了知识图谱(KnowledgeGraph)的概念,其初衷是为了优化搜索引擎返回的结果,改善用户的搜索质量以及搜索体验。当前的人工智能技术其实可以简单地划分为感知智能(主要是图像、视频、语音、文字等识别)和认知智能(涉及知识推理、因果分析等),知识图谱技术就是认知智能领域中的主要技术,是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。

知识图谱的定义和三要素

知识图谱(KnowledgeGraph,简称KG)本质上是一种叫做语义网络(semanticnetwork)的知识库,即具有有向图结构的一个知识库。由节点(point)、边(edge)和属性(property)组成,在知识图谱里,每个节点表示现实世界中的‘实体’,每条边表示实体与实体之间的‘关系’。

知识图谱的组成三要素包括:实体、关系和属性。

实体:又叫作本体(Ontology),指客观存在并可相互区别的事物,可以是具体的人、事、物,也可以是抽象的概念或联系,实体是知识图谱中最基本的元素。

关系:在知识图谱中,边表示知识图谱中的关系,用来表示不同实体间的某种联系。

属性:知识图谱中的实体和关系都可以有各自的属性。

图1知识图谱中的三要素

知识图谱的分类

通用知识图谱:面向通用领域的“结构化的百科知识库”,侧重构建行业常识性的知识,并用于搜索引擎和推荐系统。

特定领域知识图谱(行业知识图谱,垂直知识图谱):面向某一特定领域,可看成是一个“基于语义技术的行业知识库”,主要面向企业,通过构建不同行业、企业的知识图谱,对企业内部提供知识化服务。

知识图谱的技术流程

知识来源:可以从多种来源获取知识图谱数据(文本,结构化数据库,多媒体数据,传感器数据等)。

知识表示:知识表示是指用计算机符号描述和表示人脑中的知识,以支持机器模拟人的心智进行推理的方法与技术。

知识抽取:知识抽取按任务可以分为概念抽取、实体识别、关系抽取、事件抽取和规则抽取等。

知识融合:在构建知识图谱时,可以从第三方知识库产品或已有结构化数据中获取知识输入。

知识图谱补全与推理:常用的方法有基于本体推理的补全方法,基于表示和知识图谱嵌入的链接预测,基于图结构和关系路径特征的方法。

知识检索与知识分析:基于知识图谱的知识检索的实现形式主要包括语义检索和智能问答,知识图谱和语义技术也被用来辅助做数据分析与决策。

知识图谱的构建

图2知识图谱的构建流程

知识图谱的构建方式主要有两种,自顶向下(top-down)与自底向上(bottom-up)两种构建方式。

自顶向下:需要先定义好本体(schema)与数据模式,再将实体加入到知识库,基于输入数据完成信息抽取到图谱构建的过程。该构建方式需要利用一些现有的结构化知识库作为其基础知识库。适用于专业知识方面图谱的构建,比如企业知识图谱、面向领域专业用户使用。

自底向上:指的是从一些开放链接的数据中提取出置信度高的实体加入到知识库,再构建顶层的本体模式。更适合常识性知识,比如人名、机构名等通用知识图谱的构建。大多数知识图谱都采用自底向上的方式进行构建,其中最典型的就是Google的KnowledgeVault和微软的Satori知识库。这也符合互联网数据内容知识产生的特点。

知识图谱的应用

知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。知识图谱的应用主要集中在搜索和推荐领域。如语义搜索,智能推荐,知识存储,数据校验,专家系统,客服机器人等。

(1)语义搜索

当前基于关键词的搜索技术在KG的知识支持下可以上升到基于实体和关系的检索。它能准确捕捉用户搜索意图,解决关键字语义多样性及语义消歧难题,并且直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。

图3知识图谱在搜索引擎中的应用

(2)问答系统

问答系统是信息检索系统的一种高级形式,能够以准确简洁的自然语言为用户提供问题的解答。多数问答系统更倾向于将给定的问题分解为多个小的问题,然后逐一去知识库中抽取匹配的答案,并自动检测其在时间与空间上的吻合度等,最后将答案进行合并,以直观的方式展现给用户。

(3)智能推荐

除了优化搜索结果,知识图谱还可以帮助电商以及社交平台解决一些智能推荐问题。例如,当前一些中小平台在智能推荐方面最大的问题是“买了啥,推荐啥”或者“推荐的商品与客户无关联”。推荐商品缺乏新颖性,导致转化效果一般。

知识图谱可以帮助电商平台跳出这种简单的推荐逻辑,使得推荐结果更加智能化,促进用户购买。

关注微信公众号【有梦想的程序星空】,了解软件系统和人工智能算法领域的前沿知识,让我们一起学习、一起进步吧!

【详细解读】知识图谱的这一人工智能技术分支的概念、技术、应用、与发展趋势

文章目录一瞥知识图谱的概念与分类知识图谱的三大典型应用1、语义搜索2、智能问答3、可视化决策支持通用知识图谱与特定领域知识图谱1、通用知识图谱2、领域知识图谱应用知识工程的五个发展阶段1)1950-1970时期:图灵测试—知识工程诞生前期2)1970-1990时期:专家系统—知识工程蓬勃发展期3)1990-2000时期:万维网1.04)2000-2006时期:群体智能5)2006年至今:知识图谱—知识工程新发展时期把知识变成图谱一共需要花几步?1、知识表示与建模2、知识获取3、知识融合4、知识图谱查询和推理计算发展趋势与挑战知识图谱(KnowledgeGraph)是人工智能的重要分支技术,它在2012年由谷歌提出,成为建立大规模知识的杀手锏应用,在搜索、自然语言处理、智能助手、电子商务等领域发挥着重要作用。知识图谱与大数据、深度学习,这三大“秘密武器”已经成为推动互联网和人工智能发展的核心驱动力之一。

本期我们推荐来自清华大学人工智能研究院、北京智源人工智能研究院、清华-工程院知识智能联合研究中心联合推出的人工智能知识图谱报告,详细解读了知识图谱的这一人工智能技术分支的概念、技术、应用、与发展趋势。

知识图谱的概念与分类

知识图谱(KnowledgeGraph)于2012年由谷歌提出并成功应用于搜索引擎当中。它以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。

知识图谱的分类方式很多,例如可以通过知识种类、构建方法等划分。从领域上来说,知识图谱通常分为两种:通用知识图谱、特定领域知识图谱。

▲知识图谱示意图

常见的知识图谱示意图主要包含有三种节点:实体、概念、属性。

实体指的是具有可区别性且独立存在的某种事物。如某一个人、某一座城市、某一种植物、某一件商品等等。世界万物由具体事物组成,此指实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。

概念指的是具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。

属性则用于区分概念的特征,不同概念具有不同的属性。不同的属性值类型对应于不同类型属性的边。如果属性值对应的是概念或实体,则属性描述两个实体之间的关系,称为对象属性;如果属性值是具体的数值,则称为数据属性。

知识图谱的三大典型应用

现在以商业搜索引擎公司为首的互联网巨头已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,并对搜索引擎形态日益产生重要的影响。如何根据业务需求设计实现知识图谱应用,并基于数据特点进行优化调整,是知识图谱应用的关键研究内容。

知识图谱的典型应用包括语义搜索、智能问答以及可视化决策支持三种。

1、语义搜索

当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索,称之为语义搜索。

语义搜索可以利用知识图谱可以准确地捕捉用户搜索意图,进而基于知识图谱中的知识解决传统搜索中遇到的关键字语义多样性及语义消歧的难题,通过实体链接实现知识与文档的混合检索。

语义检索需要考虑如何解决自然语言输入带来的表达多样性问题,同时需要解决语言中实体的歧义性问题。同时借助于知识图谱,语义检索需要直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。

2、智能问答

问答系统(QuestionAnswering,QA)是信息服务的一种高级形式,能够让计算机自动回答用户所提出的问题。不同于现有的搜索引擎,问答系统返回用户的不再是基于关键词匹配的相关文档排序,而是精准的自然语言形式的答案。

智能问答系统被看作是未来信息服务的颠覆性技术之一,亦被认为是机器具备语言理解能力的主要验证手段之一。

智能问答需要针对用户输入的自然语言进行理解,从知识图谱中或目标数据中给出用户问题的答案,其关键技术及难点包括准确的语义解析、正确理解用户的真实意图、以及对返回答案的评分评定以确定优先级顺序。

3、可视化决策支持

可视化决策支持是指通过提供统一的图形接口,结合可视化、推理、检索等,为用户提供信息获取的入口。例如,决策支持可以通过图谱可视化技术对创投图谱中的初创公司发展情况、投资机构投资偏好等信息进行解读,通过节点探索、路径发现、关联探寻等可视化分析技术展示公司的全方位信息。

可视化决策支持需要考虑的关键问题包括通过可视化方式辅助用户快速发现业务模式、提升可视化组件的交互友好程度、以及大规模图环境下底层算法的效率等。

通用知识图谱与特定领域知识图谱1、通用知识图谱

通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极广。由于现实世界的知识丰富多样且极其庞杂,通用知识图谱主要强调知识的广度,通常运用百科数据进行自底向上(Top-Down)的方法进行构建,下图展示的即是常识知识库型知识图谱。

国外的DBpedia使用固定的模式从维基百科中抽取信息实体,当前拥有127种语言的超过两千八百万实体以及数亿RDF三元组;YAGO则整合维基百科与WordNet的大规模本体,拥有10种语言约459万个实体,2400万个事实。

国内的Zhishi.me从开放的百科数据中抽取结构化数据,当前已融合了包括百度百科、互动百科、中文维基三大百科的数据,拥有1000万个实体数据、一亿两千万个RDF三元组。

2、领域知识图谱应用

领域知识图谱常常用来辅助各种复杂的分析应用或决策支持,在多个领域均有应用,不同领域的构建方案与应用形式则有所不同。

以电商为例,电商知识图谱以商品为核心,以人、货、场为主要框架。目前共涉及9大类一级本体和27大类二级本体。

一级本体分别为:人、货、场、百科知识、行业竞对、品质、类目、资质和舆情。人、货、场构成了商品信息流通的闭环,其他本体主要给予商品更丰富的信息描述。

上图描述了商品知识图谱的数据模型,数据来源包含国内-国外数据,商业-国家数据,线上-线下等多源数据。目前有百亿级的节点和百亿级的关系边。

电商知识图谱,这个商品“大脑”的一个应用场景就是导购。而所谓导购,就是让消费者更容易找到他想要的东西,比如说买家输入“我需要一件漂亮的真丝丝巾”,“商品大脑”会通过语法词法分析来提取语义要点“一”、“漂亮”、“真丝”、“丝巾”这些关键词,从而帮买家搜索到合适的商品。

在导购中为让发现更简单,“商品大脑”还学习了大量的行业规范与国家标准,比如说全棉、低糖、低嘌呤等。

此外,它还有与时俱进的优点。“商品大脑”可以从公共媒体、专业社区的信息中识别出近期热词,跟踪热点词的变化,由运营确认是否成为热点词,这也是为什么买家在输入斩男色、禁忌之吻、流苏风等热词后,出现了自己想要的商品。

最后,智能的“商品大脑”还能通过实时学习构建出场景。比如输入“海边玩买什么”,结果就会出现泳衣、游泳圈、防晒霜、沙滩裙等商品。

知识工程的五个发展阶段

知识图谱技术属于知识工程的一部分。1994年,图灵奖获得者、知识工程的建立者费根鲍姆给出了知识工程定义——将知识集成到计算机系统,从而完成只有特定领域专家才能完成的复杂任务。

回顾知识工程这四十多年来的发展历程,我们可以将知识工程分成五个标志性的阶段:前知识工程时期、专家系统时期、万维网1.0时期、群体智能时期、以及知识图谱时期,如下图所示。

1)1950-1970时期:图灵测试—知识工程诞生前期

这一阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。

这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。

2)1970-1990时期:专家系统—知识工程蓬勃发展期

由于通用问题求解强调利用人的求解问题的能力建立智能系统,但是忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。从70年开始,人工智能开始转向建立基于知识的系统,通过“知识库+推理机”实现机器智能。

这一时期知识表示方法有新的演进,包括框架和脚本等80年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。

3)1990-2000时期:万维网1.0

在1990年到2000年期间,出现了很多人工构建大规模知识库,包括广泛应用的英文WordNet,采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的HowNet。

Web1.0万维网的产生为人们提供了一个开放平台,使用HTML定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。W3C提出的可扩展标记语言XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。

4)2000-2006时期:群体智能

万维网的出现使得知识从封闭知识走向开放知识,从集中构建知识成为分布群体智能知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。

这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。

5)2006年至今:知识图谱—知识工程新发展时期

“知识就是力量”,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。从2006年开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。

当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛使用。典型的例子是谷歌收购Freebase后在2012年推出的知识图谱(KnowledgeGraph),Facebook的图谱搜索,MicrosoftSatori以及商业、金融、生命科学等领域特定的知识库。

上表中展示的是知识图谱领域10个相关重要国际学术会议,这些会议为知识图谱领域的研究方向、技术趋势与学者研究成果提供重要信息。

把知识变成图谱一共需要花几步?

知识图谱技术是知识图谱建立和应用的技术,参考中国中文信息学会语言与知识计算专委会发布的《知识图谱发展报告2018年版》,本报告将知识图谱技术分为知识表示与建模、知识获取、知识融合、知识图谱查询和推理计算、知识应用技术。

1、知识表示与建模

知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。

目前,随着自然语言处理领域词向量等嵌入(Embedding)技术手段的出现,采用连续向量方式来表示知识的研究(TransE翻译模型、SME、SLM、NTN、MLP,以及NAM神经网络模型等)正在逐渐取代与上述以符号逻辑为基础知识表示方法相融合,成为现阶段知识表示的研究热点。更为重要的是,知识图谱嵌入也通常作为一种类型的先验知识辅助输入到很多深度神经网络模型中,用来约束和监督神经网络的训练过程,如下图所示。

相比于传统人工智能,知识图谱时代基于向量的知识表示方法不仅能够以三元组为基础的较为简单实用的知识表示方法满足规模化扩展的要求,还能够作为大数据分析系统的重要数据基础,帮助这些数据更加易于与深度学习模型集成。

同时,随着以深度学习为代表的表示学习的发展,面向知识图谱中实体和关系的表示学习也取得了重要的进展。知识表示学习将实体和关系表示为稠密的低维向量实现了对实体和关系的分布式表示,已经成为知识图谱语义链接预测和知识补全的重要方法。

知识表示学习是近年来的研究热点,研究者提出了多种模型,学习知识库中的实体和关系的表示。不过其中关系路径建模工作较为初步,在关系路径的可靠性计算、语义组合操作等方面还有很多细致的考察工作需要完成。

2、知识获取

知识获取包括了实体识别与链接、实体关系学习、以及事件知识学习。

1)实体识别与链接是知识图谱构建、知识补全与知识应用的核心技术,也是海量文本分析的核心技术,为计算机类人推理和自然语言理解提供知识基础。

实体识别是文本理解意义的基础,也就是识别文本中指定类别实体的过程,可以检测文本中的新实体,并将其加入到现有知识库中。

2)实体关系识别是知识图谱自动构建和自然语言理解的基础。实体关系定义为两个或多个实体间的某种联系,用于描述客观存在的事物之间的关联关系。实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。

实体关系抽取分为预定义关系抽取和开放关系抽取。预定义关系抽取是指系统所抽取的关系是预先定义好的,如上下位关系、国家—首都关系等。开放式关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。

3)事件知识学习,就是将非结构化文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用意义重大。

事件是促使事物状态和关系改变的条件,是动态的、结构化的知识。目前已存在的知识资源(如谷歌知识图谱)所描述多是实体以及实体之间的关系,缺乏对事件知识的描述。

3、知识融合

知识图谱可以由任何机构和个人自由构建,其背后的数据来源广泛、质量参差不齐,导致它们之间存在多样性和异构性。语义集成的提出就是为了能够将不同的知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序间的交互建立操作性。

常用的技术包括本体匹配(也称为本体映射)、实力匹配(也称为实体对齐、对象公指消解)以及知识融合等。

一个语义集成的常见流程,主要包括:输入、预处理、匹配、知识融合和输出5个环节,如上图所示。

众包和主动学习等人机协作方法是目前实例匹配的研究热点。这些方法雇佣普通用户,通过付出较小的人工代价来获得丰富的先验数据,从而提高匹配模型的性能。

随着表示学习技术在诸如图像、视频、语言、自然语言处理等领域的成功,一些研究人员开始着手研究面向知识图谱的表示学习技术,将实体、关系等转换成一个低维空间中的实质向量(即分布式语义表示),并在知识图谱补全、知识库问答等应用中取得了不错的效果。

与此同时,近年来强化学习也取得了一些列进展,如何在语义集成中运用强化学习逐渐成为新的动向。

4、知识图谱查询和推理计算

知识图谱以图(Graph)的方式来展现实体、事件及其之间的关系。知识图谱存储和查询研究如何设计有效的存储模式支持对大规模图数据的有效管理,实现对知识图谱中知识高效查询。

知识推理则从给定的知识图谱推导出新的实体跟实体之间的关系,在知识计算中具有重要作用,如知识分类、知识校验、知识链接预测与知识补全等。

知识图谱推理可以分为基于符号的推理和基于统计的推理。

在人工智能的研究中,基于符号的推理一般是基于经典逻辑(一阶谓词逻辑或者命题逻辑)或者经典逻辑的变异(比如说缺省逻辑)。基于符号的推理可以从一个已有的知识图谱推理出新的实体间关系,可用于建立新知识或者对知识图谱进行逻辑的冲突检测。

基于统计的方法一般指关系机器学习方法,即通过统计规律从知识图谱中学习到新的实体间关系。

发展趋势与挑战

整体而言,知识图谱领域的发展将会持续呈现特色化、开放化、智能化的趋势,为更好发挥现有知识图谱知识表达、知识资源优势,需与其他技术(信息推荐、事理图谱、机器学习、深度学习等)。

虽然当下互联网巨头们已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,但是我们也强烈地感受到,知识图谱还处于发展初期,大多数商业知识图谱的应用场景非常有限,例如搜狗、知立方更多聚焦在娱乐和健康等领域。

同时,根据各搜索引擎公司提供的报告来看,为了保证知识图谱的准确率,仍然需要在知识图谱构建过程中采用较多的人工干预。

如何合理设计表示方案,更好地涵盖人类复杂化、多样化的知识?如何准确、高效地从互联网大数据萃取知识?如何将存在大量噪声和冗余的知识有机融合起来,建立更大规模的知识图谱?如何有效实现知识图谱的应用,利用知识图谱实现深度知识推理,提高大规模知识图谱计算效率和应用场景?

在未来的一段时间内,知识图谱将是大数据智能的前沿研究问题,这些重要的开放性问题亟待学术界和产业界协力解决。

下面两图是AMiner数据平台绘制的知识图谱领域近期与全局热点词汇。

由以上两图可知,知识库、信息检索、数据挖掘、知识表示、社会网络等方向在知识图谱领域的热度长盛不衰。

除此之外,信息提取、查询应答、问题回答、机器学习、概率逻辑、实体消歧、实体识别、查询处理、决策支持等方向的研究热度在近年来逐渐上升,概念图、搜索引擎、信息系统等方向的热度逐渐消退。

在知识图谱的驱动下,以智能客服、智能语音助手等为首的AI应用正成为首批人工智能技术落地变现的先锋部队,知识图谱也因此成为了各大人工智能与互联网公司的兵家必争之地,它与大数据、深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。

不过正如报告中提到的,目前为了保证准确率,知识图谱在构建过程中仍然需要在采用较多的人工干预;同时,知识图谱还处于发展初期,商业应用场景有限,有待进一步开拓

来自http://www.elecfans.com/d/877541.html

什么是知识图谱有哪些模型指标规则

“图谱”的时代

知识图谱自从2012年开始发酵,愈演愈烈,行业顶端的佼佼者纷纷发布企业知识图谱应用,知识图谱能为企业实现数据价值。只能说,图技术快速发展,业务需求不论变化与否,知识图谱是不可阻挡的趋势。2020年4月20日,国家发改委明确人工智能“新基建”的内涵,体现“重创新、补短板”的特征:助力传统基础设施智能化改造,提高传统基础设计的运行效率。

图1 中国知识图谱效益增长规模——艾瑞咨询

当前的人工智能其实可以简单划分为感知智能(主要集中在对于图片、视频以及语音的能力的探究)和认知智能(涉及知识推理、因果分析等)。

人工智能是新基建的重点领域,而知识图谱是认知智能的底层支撑。知识图谱具有解释数据、推理和规划一系列人类的思考认知能力,基于大规模,关联度高的背景知识。

                                       ————《面向人工智能“新基建”的知识图谱行业白皮书》 

我们每天都在用知识图谱

知识图谱应用于各个领域,例如:电商(产品推荐)、医疗(智能诊断)、金融(风控)、证券(投研)。知名企业包括:GoogleKnowledgeGraph、美团大脑、阿里巴巴·藏经阁计划、腾讯云·知识图谱TKG等。

知识图谱在人工智能多个领域发挥重要作用:语义搜索、智能问答、辅助语言理解、辅助大数据分析、增强机器学习的可解释性、结合图卷积辅助图像分类等。同时,这也意味着技术难度大幅度增加。

知识图谱的价值

您可能会以为知识图就是捕获和管理知识的最终目的。其实,知识图擅长以自上而下的关系连接方式显式捕获知识。通过关系节点联系上下游关系,清楚的梳理关系网络。如下图:

图2 普适智能知识中台

高效直观地刻画目标主体(如企业、事件等)之间地关联网络,从而全维度地对企业进行画像,立体复现主体的真实情况和错综复杂的关系。其强大的互联组织能力和可视化决策推理支持,为企业资产提供底层基础。普适智能一站式“图智能”应用,拥有打开“百窍”的能力,具体有以下几方面的思考:

深度链接分析有机可寻

拿我们最熟悉的金融领域举例,知识图谱常见的实体包括公司、产品、人员、相关事件等,常见的关系包括股权关系、任职关系、供应商关系、上下游关系、竞争关系等等。

这样做的好处就是,通过知识图谱的整合,让原本复杂的数据形成直观易懂的可视化图谱, 在全球经济一体化的趋势下,分析师以及投资机构很可能先人一步观察到竞争格局的改变,为寻找新客户、新投资机会提供线索。

图3 企业上下游关系网络

多维度属性 顺藤摸瓜

知识图谱的另一个价值是“可以简单地处理多维度数据”。目前在普适智能帮客户分析超百亿的实体(或节点)和关系(或边缘)。

图4某股份制商业银行基金产品关系网络截图

“对于实益拥有权,我们经常会看到拥有六,七层或更多层的拥有权阶层,尤其是在像中国这样拥有大型企业的地方。” “人们必须意识到一个拥有可以处理并查询至少六到七层(如果没有更多层)的拿手工具是解决问题的真正核心。”

每个公司、个人、新闻事件都可以是一个“点”,人工智能引擎可将这些点进行聚集,对其中的相关性、相似度以及聚集程度进行多维度分析,还原真实场景,才能“顺藤摸瓜”。

图5反欺诈图应用

例如知识图谱在传统的风险管理流程中,多通过对目标主体简单维度的特征进行严格审核,无法判断真实的关联风险。

挑战与机会

普适智能深耕于金融领域,其细分业务场景包含但不限于:反欺诈、反洗钱、盗刷排查、失联催收、外汇异常监控、信用审核等,举个具体项目中的例子:因图构建本身流程较长,再加上每个场景的图构建相对的独立,给数据反复开发,数据不连通创造了必要条件,绕不过去的是大量企业资产成本浪费问题。

图6 传统关系网络应用的构建模式

在工程落地方面,还存在图谱建设周期长,应用构建专业程度高,跨行业迁移成本高等难题。由此带来的挑战会体现在——产品是否可以开箱即用。

普适智能中台化思路

为了解决以上问题,普适智能自主研发将知识图谱构建与应用平台升级为一站式的“图智能”中台。

图7 传统关系网络应用的构建模式

一套中台和工厂模式平台的孕育而生,确保各式的场景对图不同形态的需求和保证联合查询需求。“一窍通,百窍通”,一站式“图智能”中台就是“那一窍”,以下:

打通业务场景独立图谱构建,减少反复开发周期成本,为传统应用形态赋能,提升服务质量和效率,简单的图应用可以在1~2天内实现,复杂的图应用可以在传统做法上缩短到三分之一,加速企业资产的累积;

配合着打通部门数据,解决跨部门合作沟通周期长、配合难的问题;

图谱交互友好程度高,可视化决策辅助业务场景,更易发现隐藏的信息;

赋能专家行业专家,将领域专家的行业经验的程序化,留存在平台,企业知识资产沉淀。

实时可扩充,弹性十足

知识图谱中台的价值还在于灵活可扩充,建立实时敏捷、灵活可扩展、具有弹性的数据基础。金融知识图谱直接反馈金融行业的刚性需求,由于实际中,企业数据和业务变化灵活,数据源、数据结构、数据内容随时会发生变动,对业务的理解以及对数据的解读也随之发生变化。

图8 多维数据扩展查询

如何有效的使用这些数据,需要员工具备专业的金融知识,深刻理解某个数据变动可能引发的关联、传导,知识图谱将是最得心应手的工具。

图技术是知识图谱应用的最强弹药

企业需要能够快速支持业务中迭代式的新模式。普适智能的“图智能”中台具有计算引擎:图计算模型、图匹配业务数据模型等,助力企业完成这一目标。

图规则计算:(例如:与黑名单客户共用一个电话的客户是可疑欺诈客户)

图指标计算:(例如:客户两度关系内黑名单客户的比例)

图机器学习(以图作为先验知识让特征工程更有效)

社群识别:标签预测(黑名单预测/潜在VIP客户预测)

图9 社区分析

最短路径:优化加工路径,节约数据加工成本。

图10 路径查询

“工欲善其事,必先利其器”。普适智能一站式“图智能”应用,为描绘物理世界生产生活行为提供有效的方法和工具。Gartner:“图时代已经到来”,让我们一起“图”起来!

大数据:人工智能的基石

目前的深度学习主要是建立在大数据的基础上,即对大数据进行训练,并从中归纳出可以被计算机运用在类似数据上的知识或规律。那么,到底什么是大数据呢?

人们经常笼统地说,大数据就是大规模的数据。这个说法并不准确。“大规模”只是指数据的量而言。数据量大,并不代表着数据一定有可以被深度学习算法利用的价值。例如,地球绕太阳运转的过程中,每一秒钟记录一次地球相对太阳的运动速度、位置,这样积累多年,得到的数据量不可谓不大,但是,如果只有这样的数据,其实并没有太多可以挖掘的价值,因为地球围绕太阳运转的物理规律,人们已经研究得比较清楚了,不需要由计算机再次总结出万有引力定律或广义相对论来。

对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。从java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享!

 

那么,大数据到底是什么?大数据是如何产生的?什么样的数据才最有价值,最适合作为计算机的学习对象呢?根据马丁·希尔伯特(Martin

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇