博舍

【人工智能】知识图谱 人工智能和知识图谱

【人工智能】知识图谱

文章目录一、知识图谱的概况二、知识图谱的基本概念三、知识图谱构建技术四、知识图谱主要应用一、知识图谱的概况

知识(Knowledge):合理性(Justified)、真实性(True)、被相信(Believed)

知识是人类通过观察、学习和思考有关客观世界的各种现象而获得并总结出的所有事实(Fact)、概念(Concept)、规则(Rule)或原则(Principle)的集合,分为陈述性知识和过程性知识,又可分为概念知识、事实知识、规则知识。

知识图谱是一种语义网络(SemanticNetwork)的知识库,可以构建庞大的知识网络,包含世间万物构成的实体以及它们之间的关系,图文并茂地展现知识方方面面的属性,让人们更便捷地获取信息、找到所求

二、知识图谱的基本概念

图:一种有效表示数据之间结构的表达形式

知识图谱:旨在以结构化的形式、描述现实世界中存在的概念、实体及其间关系的语义网络(体系化、关系化、知识可视化)

本体论:来自形而上学(研究第一原则或事物本质的学科)的一个哲学分支,研究存在Being的哲学问题,对世界上任何领域内的真实存在所做出的客观描述

信息领域的本体:形式化、对于共享概念体系的明确且详细的说明

本体反映的知识是一种明确定义的共识,本体是同一领域内不同主体之间进行交流、连通的语义基础,其在知识图谱中的地位相当于知识库的模具,其最大的特点是共享的,位于模式层,用于描述概念层次体系。是知识库中知识的概念模板

实体(entity):现实世界中的具有可区别性且独立存在的某种具体事物,是知识图谱中的最基本元素类(class)或概念(concepts):相同性质的客观事物集合(类别、对象类型、事物的种类)关系(relations):某个领域中概念或实体之间的外在相互联系属性(attribute,property):某个实体或概念的固有内在特性公理(axiom):描述领域内总时成立(为真)的陈述

各种常见实体间关系:

part-of(部分与整体之间的关系)kind-of(继承,例如父类和子类;给出两个概念CCC和DDD,记SC={x∣x是C的实例}S_C={x|x ext{是}C ext{的实例}}SC​={x∣x是C的实例},SD={x∣x是D的实例}S_D={x|x ext{是}D ext{的实例}}SD​={x∣x是D的实例},若SD⊆SCS_DsubseteqS_CSD​⊆SC​,则称CCC为DDD的父概念,DDD为CCC的子概念)instance-of(概念的实例与概念之间的关系)attribute-of(属性,e.g.概念“颜色”是概念“玫瑰花”的一个属性)

属性图(PropertyGraph):可以表示实体和关系的属性

资源描述框架(ResourceDescriptionNetwork):另一种表示知识图谱的方式,由很多三元组(Triples)来组成,不支持属性

知识图谱的基本单位:“实体1-关系-实体2”、“实体、属性、属性值”构成的三元组

本体的特征:概念化、明确化、形式化、共享性

知识图谱的构成:

知识图谱:包含多种类型的节点(概念、实体)、多种类型的边(概念或实体的属性、概念或实体间的关系)的多关系图图:由节点和无向边组成,通常只包含一种类型的节点和边多关系图:包含多种类型的节点和多种类型的边

知识图谱的存储:两种方式

基于RDF的存储(三元组,不包含属性信息)基于图数据库的存储(更容易表达现实的业务场景)

知识图谱示例:

三、知识图谱构建技术

按照数据的结构化程度来分,原始的数据可以分为:

结构化数据半结构化数据非结构化数据

根据数据的不同的结构化形式,采用不同的方法,将数据转换为三元组的形式

然后对三元组的数据进行知识融合,主要是实体对齐,以及和数据模型进行结合,经过融合之后,会形成标准的数据表示,为了发现新知识,可以依据一定的推理规则,产生隐含的知识,所有形成的知识经过一定的质量评估,最终进入知识图谱

依据知识图谱这个数据平台,可以实现语义搜索,智能问答,推荐系统等一些应用

知识图谱构建:

原始数据信息提取知识融合知识加工知识更新

知识图谱架构逻辑结构技术架构模式层(本体库)数据层(客观事实,三元组)信息提取知识表示知识融合知识加工知识更新实体抽取关系抽取属性抽取传统表示方法:三元组SPO深度学习为代表的技术:稠密地位实值向量实体链接知识合并本体构建知识推理质量评估全面更新:以更新后的全部数据为输入增量更新:以当前新增数据为输入

实体抽取示例:⇓LARGE{Downarrow}⇓

四、知识图谱主要应用语义搜索/智能搜索人物关系图智能问答领域概念关系、风险分析可视化决策支持(反欺诈)个性化服务、辅助决策

国外知识图谱项目:

常识知识库:Cyc、WorldNet、ConceptNet互联网知识图谱:FreeBase、DBpedia、Schema、Wikidata、BableNet、MicrosoftConceptGraph,医疗领域LinkedLifeData等

国内知识图谱项目:

OpenKG、CN-DBpedia、中医药知识图谱、阿里电商知识图谱、美团知识图谱、XLore(清华大学)、Belief-Eigen(中科院)、PKUPie(北京大学)等

最新的知识图谱搜索引擎Magi

基础教育知识图谱系统

一、所属领域

基础教育,知识图谱,教育新基建,自适应学习,项目化学习,认知诊断

二、项目介绍

1.痛点问题

《中国教育现代化2035》提出“利用现代技术加快推动人才培养模式改革,实现规模化教育与个性化培养的有机结合”。2021年7月国家发布“双减”政策以后,如何在减少学生学习时间的前提下提升学习效果,就成为摆在学校与老师面前的一个重要课题。学生的学习行为是因人而异的,受到知识水平与认知能力等因素的影响。现有的学习资源是非常丰富的,通过在课后为学生提供有针对性的学习资源、满足学习者个性化的学习需求,是提升学生学习效果的重要途径。要达成这个目标,就必须依靠知识图谱技术的支撑,突破学习资源语义化分析、个性化推荐等技术在教育领域的瓶颈,最终实现个性化的学习。而当前国内缺乏一个全学科的、可访问的基础教育知识图谱系统,本项目成果填补了此方面空白。

2.解决方案

知识图谱是当前计算机中知识表示的一种重要方式,利用知识图谱可以改善搜索结果、进行基于语义的数据集成、以及提升智能问答的准确性。在基础教育领域,如何构建高质量的知识图谱是一个重要挑战。本项目在国内率先研究提出一种准确高效的领域知识图谱构建方法——“四步法”,研发了相应的软件平台(资源管理系统、语义标注系统、知识管理系统、知识展示系统),用此方法构建了中国基础教育知识图谱EduKG,并利用该知识图谱开展基于知识点的教学资源集成。EduKG涵盖了基础教育九门学科的知识,基于其研发的基础教育知识记忆类问题自动问答系统准确率达到70%以上。目前该知识图谱已经可以提供公开的访问服务接口,供相关教育信息应用程序进行访问调用。该知识图谱相当于基础教育的新基建,上层应用可以同时调用访问基础教育知识图谱的内容,给学生提供自适应学习软件应用、给老师提供强大丰富的备课资源及融合式教学方案、给学校管理提供教师授课评估等多种应用。

图1基础教育知识图谱系统open.edukg.cn

3.竞争优势分析

国内能够拥有基础教育知识图谱的企业主要有科大讯飞、百度基础教育图谱与松鼠AI等,这些企业已经在国内教育信息化市场深耕多年,在基础教育知识图谱方面也有相关产品积累。与之相比,本成果是一个全学科的知识图谱,涵盖了基础教育九门学科内容;本成果的知识图谱提供了访问服务接口,可以广泛服务于各个基础教育的相关单位,包括教育信息应用研发企业、地方教育局、中小学等。目前,本项目成果的技术已比较成熟,申请了多项专利与软件著作权,并已成功应用于中国移动“和教育”平台。

4.市场应用前景

为了向学生提供智能化、个性化的知识推送服务,需要让计算机“理解”知识,实现知识表示与知识处理。当前,知识图谱是人工智能领域一种重要的知识表示方式,它以结构化的形式描述现实世界中实体间的复杂关系,已经成为组织、管理和理解海量信息的重要工具,是实现认知智能的核心基础。知识图谱已经成为个性化学习与智能教学中必不可少的基础。本项目团队研发的基础教育知识图谱,是国内为数不多的覆盖基础教育全学科的知识图谱,是一种全新的教育信息化新基建。从市场角度,基础教育知识图谱可以作为软件系统提供给各地教育局、中小学进行使用,也可以与其他教育信息化软件结合在一起进行销售,全国的教育局、中小学等都是潜在用户,具有广阔的应用前景。

5.发展规划

基于本成果可形成“基于知识图谱的基础教育知识服务系统”的产品形态,主要客户是全国各个市县的教育局以及中小学校。从2022年开始,争取在五年内,在国内超过15个市县部署实施,服务于广大的中小学校园。

6.知识产权情况

已申请相关发明专利及软件著作权十余项。

三、合作需求

期待与各个省市的教育信息化企业开展合作,采用技术许可等方式,提升这些企业的教育信息化产品的智能水平,服务于当地的教育局、电教馆、中小学等单位。最终为政府、学校、师生提供教育现代化解决方案和优质的课程资源及平台技术服务,助力区域构建高质量的教育发展体系,为学校提供智慧教学系统创新课堂教学,从而提高课堂效率和质量,为学生提供个性化学习产品,通过互联网扩大优质教育资源覆盖面,促进区域发展公平而有质量的教育。

四、团队介绍

本项目团队来自清华大学计算机系知识工程实验室,项目负责人许斌,清华大学计算机系副教授、博士生导师。曾任清华大学全球创新学院副院长,现任中国计算机学会计算机应用专委会主任,中国中文信息学会语言与知识计算专委会副秘书长,互联网教育智能技术及应用国家工程实验室的知识建模与分析实验室主任,IEEE基础教育知识图谱标准工作组主席。主要从事知识图谱和数据挖掘方面的研究,在AAAI/ACL/TPDS/TSC等高水平学术会议与期刊上发表了上百篇论文,是国际学术期刊SOCA的编委。主持国家863课题“面向基础教育的海量知识库建设与构建关键技术及系统”、“知识产权大数据挖掘技术、智能推荐技术及应用示范”等多项国家项目,是科技情报挖掘与服务系统AMiner的主要研制人之一,中国计算机学会第35届中国计算机应用大会主席,中国青年科学家论坛执行主席。先后获得国家科技进步二等奖、中国人工智能学会科技进步一等奖、北京市科技进步一等奖等多个奖项。

五、联系方式

E-mail:ott@tsinghua.edu.cn

成果编号:2021186

注:所有成果发布内容未经授权,请勿转载!

授权请联系yaoxiahan@tsinghua.edu.cn

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇