博舍

知识图谱如何让“人工智能”更智能 知识图谱与认知智能的区别

知识图谱如何让“人工智能”更智能

本文将带读者一起探讨两个话题——人工智能不智能的点在哪里,基于知识图谱的认知智能怎么就变得智能了。

一、为什么人人都谈论的人工智能是不智能的?1.自动驾驶这个行业所存在的问题

我们一起先来聊聊自动驾驶这个话题,先说下结论,无论是自动驾驶、机器人还是人工智能的任何领域都高度依赖于历史的数据,并且只能完成单项或者部分多项的协同任务,全部处于弱人工智能的阶段。

(1)产业及技术

从自动驾驶的产业链的体系中我们可以看到,这个行业大概会有3部分组成,感知端-客户端-云端。

感知端:时刻通过高精度的传感器及视觉设备感知定位所处的环境,根据环境做出决策,提取相关的数据,自动驾驶高度依赖各式的传感器,而多传感器融合的问题一直未解决;客户端:主要包含操作系统及硬件平台,通过算法及底层芯片实时处理前端的数据,满足自动驾驶实时可靠性的需求,芯片处理及时延的问题也暂未解决,这个问题有望在5G的时代解决;云端:主要用来存储模拟高精度地图绘制,为决策提供依据;

(2)自动驾驶等级

而在行业里面大家把自动驾驶分为5个级别L0-L5,而目前为止即使像谷歌和百度这样的头部公司,重金砸到了自动驾驶这个领域,目前也只能处在L3的级别,而其他研究自动驾驶的公司处在L2阶段。

而且有部分人认为自动驾驶要达到L5这个级别是不可能的,因为人工智能永远处理不了意外,而意外是历史数据包含不了的。

(3)用户使用(不安全)

2016年,特斯拉因自动驾驶未识别白色汽车导致驾驶事故;2016年的uber自动驾驶全球首例自动驾驶死亡事件;这样的事件还有很多,对用户来讲自动驾驶,至少现在它是不安全的。

所以单从目前的人工智能来说,数据-技术-应用都或多或少出现了很多问题,而过度依赖历史的数据这个人工智能最大的问题。

2.现阶段的人工智能是什么水平?

AI项目投入:企业在AI项目上的投入是反应AI价值的一个维度,相比于制造和互联网行业,金融行业在AI上的投入最大。

成熟度:从技术及业务成熟度的角度分析,单拿金融行业来说,反欺诈、生物识别验证、智能客服这3项是在金融行业已成熟落地的场景,相比如其他行业应用最为成熟,其中金融行业最大的一点得益于金融行业在线化的数据,这也是AI可以快速落地的前提条件。

市场角度:从市场的角度来看,人工智能行业按照平台及市场的划分,已经形成头部及垂直行业的企业,不同角度的竞争及协作角度将快速促进这个行业的大力发展。

二、基于认知计算的知识图谱会变得智能吗?1.结论是正面的

直接给出结论:是的,而且是质的改变,知识图谱开始不再过分依赖于已有的历史数据了,比如精准营销,以前的精准营销服务,是基于已知数据做的,而实际情况往往获取不到那么多的数据来进行分析,而图谱开始利用知识推理来猜测用户的喜好。还有一点,图谱开始破坏人和机器反事实的状态了(这一点在后续的文章中再阐述)。

(1)数据、信息、知识、智慧

为了更好的了解知识图谱这项技术,我们先得知道数据、信息、知识、智慧这4个词的含义,它们之接的关系像一个金字塔一样,数据是形成信息、知识和智能的原材料,数据的量非常大,信息的量要小一些;

举个例子,我们人和人直接的相处,从陌生人开始接触对方这个人的言谈和举止都可以当做数据,但是当过一段时间后,你会对这个人有个鲜明的标签,比如这个人很努力,很靠谱,努力和靠谱就是信息了,所以数据是非指向性、非结构性的,信息是有指向性和结构性的;

而知识是在信息基础之上,那些被人们广泛接受并且成为共识的东西,而智慧其实是使用知识的这个人利用知识解决了某项问题就说这个人很有智慧。

从某种意义上来说,知识图谱是人工智能变的更加智能的必经阶段。

(2)从AI技术的方向去看知识图谱

从目前2019的技术成熟度来看,这项技术很快就会成为行业热点,而且对图谱技术的投资也会加大。

2.举例

我们以一个智能问答的例子作为切入,基于知识图谱的智能问答应该是什么样子的。

(1)智能问答新趋势

目前智能问答这个领域大概经历了3个阶段,从传统的数据库检索到信息检索也就是智能客服类的机器人,再到以知识图谱建设为主知识型的问答机器人。

(2)从用户角度出发

而所有的无论是现在行业里听到的实体机器人、在线客服、智能语音导航、外呼这些新名词最终都可以归结为问答这个领域,而最主要对问答对象起到的不外乎客户维系以及客户提升这两方面的作用。

(3)技术组成

一个完整的问答系统,离不开的底层技术,包括NLP、ASR、TTS,而知识图谱在知识库构建及问答中才刚刚发挥作用。

智能外呼智能X导航智能质检

(4)智能服务机器人

实体机器人智能问答系统通过智能硬件作为载体实现真实的银行业务场景。

智能机器人与线上政务结合

(5)知识图谱与智能知识库

在知识库构建层面,目前主要还是以FAQ为主,未来基于知识图谱技术的知识库构建将发挥重要的作用。

(6)基于深度学习的图谱问答构成

主要会有两个方面,一种是利用深度学习对传统的方法进行改进,另一种就是基于深度学习端到端的问答构建。

框架算法设计:

利用LSTM进行实体模块儿识别,对传统的实体识别及关系映射进行改进:

基于深度学习的卷积神经网络

端到端的深度学习问答模型,将问题和知识库中的信息均转化为向量表示,通过向量间的相似度计算方式完成用户问题与知识库答案的匹配,进一步提升了问答的准确性。

最终问答的整体技术架构是基于多策略的统一问答,让问答更精准,问题覆盖更广。

整体的工作流程:从问题输入意图识别再到答案融合与生成。

回到现实,对于企业来说,无论是现在热议的新冠疫情还是本身技术发展阶段带来的一系列问题,对企业来说都蕴含着“危”和“机”,而在此次社会问题出现的时候,我想会加速催化产业的重组及技术的创新,政府也会在人工智能、5G这些高新技术上加大投资,我想未来是可期的。

对个人而言,我蛮喜欢罗胖跨年演讲中的一句话,疫情也好金融危机也罢,这就是我辈要解决的问题,“直面现实,躬身入局”。

 

本文由@哥就是农村来的 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

知识图谱与图数据库的关系,终于有人讲明白了

01 什么是知识图谱1.搜索引擎方式革新​

2012年5月6日,Google发布了“知识图谱”的新一代“智能”搜索功能。

传统的搜索引擎搜索数据,更多的方法是基于关键词匹配的方式。

近两年来,我们到各大搜索引擎上搜索信息时,比如搜索关键词“詹姆斯瓦特”,你会发现在某一个地方出现一些卡片,信息卡片的方式是搜索领域的一大革新,它是基于知识图谱的方式。

2.知识图谱的本质​

基于关键词匹配的传统搜索引擎,是将匹配到关键词后再把信息展现出来。

如果把信息的形式进行转换,例如将里面的人物、地点、时间等信息抽取出来,构建一个知识图谱的结构,就可以将“詹姆斯瓦特的校友是谁?”等问题的答案推理出来。

知识图谱实现了从原来的关键字匹配、内容匹配的方式,转变为对信息的推理、对信息的追溯这种方式。

知识图谱本质上是基于图的语义网络,表示实体与实体之间的关系。

02 知识图谱研究的多个维度知识图谱相关领域包括知识工程、自然语言处理、数据库、机器学习等。

知识工程:例如知识库构建、基于规则的推理等。

自然语言处理:例如信息抽取、语义解析等。

数据库:例如RDF数据库系统、数据集成、知识融合等。

机器学习:例如知识图谱数据的知识表示(GraphEmbedding)等。

1.知识工程知识图谱是Web和⼤数据时代的知识⼯程新的发展形态。

知识工程的核心是知识库和推理引擎。​

知识库包括以下几个方面:

领域本体的构建:面向特定领域的形式化地对于共享概念体系的明确而又详细的说明。知识抽取:从海量的数据中通过信息抽取的⽅式获取知识。知识融合:通过对多个相关知识图谱的对⻬、关联和合并,使其称为⼀个有机的整体,以提供更全⾯知识。①知识图谱数据模型

RDF​基于领域本体的构建,有几种基本的数据模型,比如常见的RDF数据模型。

RDF数据模型将知识库里面的各个本体以及它的属性,还有一些相关的属性值,以及它和其他的本体之间的关系,用一个3元组的方式来描述,即主谓宾三列的表。

RDFs​RDF数据模型的一种变式,在RDF数据层的基础上引⼊模式层,定义类、属性、关系、属性的定义域与值域来描述与约束资源,构建最基本的类层次体系和属性体系,⽀持简单的上下位推理。

本体语言OWL​进⼀步扩展RDFs词汇,可声明类间互斥关系、属性的传递性等复杂语义,⽀持基于本体的⾃动推理,提供了⼀组合适web传播的描述逻辑的语法,对机器友好,但认知复杂性限制了⼯程应⽤。

②知识抽取

③大规模知识抽取​

知识库的构建有以下案例:

Yago(YetAnotherGreatOntology)​融合了WordNet和Wikipedia,从Wikipedia的结构中抽取信息,利⽤⼈⼯采样评估 

DBPedia​通过社区成员定义和撰写准确的抽取模板,进⽽从维基百科中抽取结构信息,并将其发布到Web上。

Freebase从Wikipedia和其他数据源(如IMDB、MusicBrainz)中导⼊知识。

2.自然语言处理⾃然语⾔处理和知识图谱研究是双向互动的关系:⾃然语⾔处理为知识图谱抽取知识;知识图谱可以提升NLP任务的准确度。

(1)知识图谱与自然语言处理

知识图谱与自然语言处理在如下两个方面关系紧密:

①信息抽取 

主要技术:实体识别与抽取、实体消歧、关系抽取 

趋势及挑战: 

•从封闭⾛向开放 

•⼤规模信息抽取 

•深层次挖掘信息背后的语义(从抽取到理解)

②语义解析 

语义解析就是将⾃然语⾔映射成机器可以表达的形式。 

主要技术:词义消歧、语义⻆⾊标注、指代消解等。 

应⽤: 

•⾯向知识图谱的⾃然语⾔问答 

•聊天机器⼈等

(2)实体识别

在实体识别中,命名实体识别的主要⽅法有如下两种: 

①基于规则的实体识别⽅法 

基于命名实体词典的⽅法:采⽤字符串完全匹配或部分匹配的⽅式,从⽂本中找出与词典最相似的短语完成实体识别。 

优点:规则简单。

缺点:需要构建词典和规则;性能受词典规模和质量的影响。

②基于机器学习的实体识别⽅法 

利⽤预先标注好的语料训练模型,使模型学习到某个字或词作为命名实体组成部分的概率,进⽽计算⼀个候选字段作为命名实体的概率值。若⼤于某⼀阈值,则识别为命名实体。 

分为:最⼤熵模型(MaximumEntropyModel)和条件随机场模型(ConditionalMarkovRandomField)。

(3)语义解析之语义搜索

语义搜索是指搜索引擎的⼯作不再拘泥于⽤户所输⼊请求语句的字⾯本⾝,⽽是透过现象看本质,准确地捕捉到⽤户所输⼊语句后⾯的真正意图,并以此来进⾏搜索,从⽽更准确地向⽤户返回最符合其需求的搜索结果。 

(4)语义解析之知识问答

智能问答的主要⽅法有如下两种:

①基于信息检索的⽅法 

⾸先利⽤中⽂分词、命名实体识别等⾃然语⾔处理⼯具找到问句中所涉及到的实体和关键词,然后去知识资源库中去进⾏检索,并通过打分模型对答案进⾏排序。 

②基于语义解析的⽅法 

将⼀个⾃然语⾔形式的问句,按照特定语⾔的语法规则,解析成语义表达式,将其转化为某种数据库的查询语⾔。

两种主要方法的框架对比如下所示:

3.图数据库知识图谱与图数据库的关系从以下四个方面介绍:知识图谱与数据管理、基于关系的知识图谱存储管理、原生知识图谱存储管理、知识图谱与图数据库。

①知识图谱与数据管理

知识图谱本质上是多关系图,通常⽤“实体”来表达图⾥的结点、⽤“关系”来表达图⾥的边。

关系型数据库:实体与实体之间的关系通常都是利⽤外键来实现,对关系的查询需要⼤量join操作。

图数据库:图模型建模实体(结点)和实体之间的关系(边),在对关系的操作上有更⾼的性能。

②基于关系的知识图谱存储管理

使用三元组进行知识图谱的存储:

优点:简单明了 

缺点:最⼤问题在于将知识图谱查询翻译为SQL查询后会产⽣三元组表的⼤量⾃连接操作。

为解决基于关系的是指图谱存储管理中出现的问题,采用以下两种方法解决:

属性表:属性相似的聚为⼀张表​优点:克服三元组⾃连接的问题。

缺点:⼀对多联系或多值属性存储问题、RDF的灵活性等。

代表:采⽤属性表存储⽅案的代表系统是RDF三元组库Jena。

垂直划分:以谓语划分三元组表​优点:克服属性表的空值多值问题。

缺点:⼤量属性表、删除代价⼤。

代表:采⽤垂直划分存储⽅案的代表数据库是SW‐Store。

③原生知识图谱存储管理

RDF模型​​

gStore系统利用子图匹配整个图谱。

优点:任意一个节点不满足子图的模式都可以跳过,实现高并发。

属性图 ​

典型属性图代表:Neo4j图数据库。

与RDF的区别为:边也有属性,可以与RDF互相转换

④知识图谱与图数据库

4.机器学习在与机器学习的联系更多地表现在知识表示学习这一方面,应用较多的场景为知识推理。

①知识表示学习

知识表示学习的背景是基于⽹络形式的知识表示存在数据稀疏问题和计算效率问题。 

知识表示学习(representationlearning)主要是⾯向知识图谱中的实体和关系进⾏表示学习,使⽤建模⽅法将实体和向量表示在低维稠密向量空间中,然后进⾏计算和推理。 

优点:显著提升计算效率,有效缓解数据稀疏,实现异质信息融合。 应⽤:知识图谱补全、相似度计算、关系抽取、⾃动问答、实体链指。举例:知识表示代表模型:TransE[Bordesetal.,NIPS13]。 对每个事实(Subject,Predicate,Object),将其中的predicate作为从subject到object的翻译操作。每个Subject/Predicate/Object,都映射成⼀个多维向量。优化⽬标是S+P=O。

②自然语言问答

03 从人工智能和大数据的角度看待知识图谱为什么要从这两个角度来看待?这主要是目前这两个角度非常火。

①人工智能的诞生

早在1956年达特茅斯会议上,首次提出“⼈⼯智能(ArtificialIntelligence,AI)”的概念。人们将他概括为“⽤机器来模仿⼈类学习以及其他⽅⾯的智能”。

人工智能目前有两个流派:符号主义(Symbolism)与连接主义(Connectionism)。

符号主义符号主义(symbolicism),⼜称为逻辑主义(logicism)、⼼理学派(psychologism)或计算机学派(computerism),其主要原理为认知过程就是在符号表示上的⼀种运算。

可以举例理解:

⼩明认识⾃⾏⻋O:O(a,b,c,d,e),其中a(⻋把))b(⻋胎)d(坐垫)e(⻋架)c(脚踏)。

连接主义​连接主义(connectionism),⼜称为仿⽣学派(bionicsism)或⽣理学派(physiologism),其主要原理为智能活动是由⼤量简单的单元通过复杂的相互连接后并⾏运⾏的结果。 

当前典型研究:深度学习、深度神经⽹络。

可以举例理解:

⼩明学骑⾃⾏⻋:经过⻓时间练习,⼩明终于学会了!却说不清楚“到底该怎样”骑。

②知识图谱与人工智能

计算机的发展分为三个阶段:计算智能、感知智能、认知智能。

人工智能需要机器智能,特别是认知智能,而认知智能依赖知识图谱。

目前的重要研究方向是和连接主义的结合(例如知识图谱的表示学习等)。

③知识图谱与大数据

知识图谱与大数据的联系​“知识图谱”是⾯向关联分析的⼤数据模型。

大数据的5V特性包括:Volume(大量),Velocity(高速),Variety(多样),Value(价值),Veracity(真实)。其中最重要是Value,但价值是隐含的,而大数据里面隐含的关系,可以用一个知识图谱来表示。

知识图谱与大数据的应用​知识图谱与大数据方面的应用包括以下几个方面:

图机器学习,例如TransE,GCN等模型。

图数据库,例如RDF图gStore、Virtuoso,属性图Neo4j、janusgraph等。

图计算系统,例如点中心模型系统Pregel、GraphLab等。

图挖掘算法,例如Pagerank、Simrank、社区发现、影响力传播等。

04 我们的工作①研发路线图

我们团队来自于北京大学王选计算机研究所数据管理研究室,2011年开始做图数据库方面的研究,提出了子图匹配的方法来实现RDF的查询、2013年至2017年开发的gStore中提出了基于结构感知的图数据库索引和子图匹配查询优化理论。

②技术路线图

基于图的生态链的系统平台分为三个步骤研发:知识图谱的构建、知识图谱管理、知识图谱应用。

知识图谱的构建大部分数据是结构化或非结构化等形式,存储在关系数据库中,而非以RDF或属性图的形式存储,因此在构建时需要进行数据形式的转换。

涉及知识抽取、知识融合等问题,是整个系统平台的重难点。

知识图谱管理解决转换成RDF或属性图的数据怎么存储、如何进行数据管理、为知识图谱应用提供高效访问接口等问题。

知识图谱应用开发知识图谱的应用,体现数据的价值,是整个系统平台的价值点。

③产品生态

gStore​项⽬特点:基于⼦图匹配的图数据查询和优化策略,单机能⽀持50亿规模的图数据的存储和查询,以及更新等。

代码:除了SPARQL语法解析器外均为独⽴开发的,⽬前有14万⾏C++代码,完成⾃主知识产权。

目前版本:v0.9.1

项⽬主⻚:gstore.cn

开源地址:https://github.com/pkumod/gStore

gBuilder项⽬特点:知识图谱构建的⼀体化平台,包括Schema设计,结构化和⾮结构数据抽取,融合多种⽂本抽取的算法模型,以及抽取模型NAS搜索等。

gAnswer​项⽬特点:基于⼦图匹配的知识图谱的⾃然语⾔问答⽅法。

开源地址:https://github.com/pkumod/gAnswer

gStoreWorkbenchgStore可视化管理工具。

gCloud“开箱即用”的gStore服务。

gMaster支持百亿规模分布式部署。

gStore高效RDF图数据库管理系统实现了自主可控国产化,能够与国产化CPU和操作系统适配。赋能国产⾃主可控的计算机体系架构。

05 相关案例①金融科技

知识关联查询:⾦融实体查询、多层股权查询、⾦融实体关联分析。

⻛险分析:⻛险识别、资本系分析。

②政府大数据

社会的自然人会产生诸多数据,例如出生、教育、住房、就业、婚姻生育、医疗养老、死亡等方面的数据。基于这些数据可以进行政府大数据融合与挖掘,例如用于民政和司法的亲属关系检索。

③智慧纪检

可以使用知识图谱进行干部廉洁画像、社会关系分析、话单分析等。

④智慧医疗

基于药物说明书构建“病-症-药”的知识图谱,可以进行疾病科室、疾病症状、疾病并发症、健康饮食智能问答等应用。

⑤人工智能

例如智能问答等语音机器人。

⑥气象交通

将规则写进知识图谱,实时采集气象信息并进行知识图谱的匹配,以起到预警的作用。

⑦公安知识图谱

多维度知识探索:从“同程、同宿、同案件”等多个维度进⾏知识探索和知识推理。

隐含关系挖掘:从交通出⾏、⽹吧上⽹、出⼊境等部⻔和系统中获取数据,发现⼈物的“同⾏,同上⽹,同出国”等隐含关联关系。

嘉宾:李文杰博士 北京大学 博士后

认知深度学习:从构建知识图谱到涌现认知智能

临界的鸟群与复杂系统——2021年诺奖得主GiorgioParisi的集体行为研究

因果推断研究获2021诺贝尔经济学奖

为什么经济必须持续增长?多主体模型揭示规模、复杂性与财富增长的关联

远程办公让信息更容易传达但有效沟通却更难了

脑的进化:更大的脑容量预示更高的智能水平?

科学与艺术的交融怎样激发灵感?

知识怎样在大脑中表征?Nature刊文揭示抽象知识的几何结构

一个画家的电报传奇

Science:迈向量子互联网

2600万篇论文引用调查:科研界马太效应加剧,强强联合愈发普遍

复旦大学肖仰华:深度剖析知识图谱与认知智能

原标题:复旦大学肖仰华:深度剖析知识图谱与认知智能

肖仰华教授1万5千字雄文带您深度剖析知识图谱与认知智能,对知识图谱技术与落地应用中的一系列关键问题做了系统梳理与解答。

来源|知识工厂(公众号ID:fudankw)

作者|肖仰华博士(复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。)

报告摘要:人类社会已经进入智能化时代。各行各业纷纷踏上智能化升级与转型的道路,各类智能化应用需求大量涌现。这些智能化应用需求对于机器认知水平提出了全新要求。实现机器认知智能的关键技术之一是知识库技术。

知识图谱作为大数据时代的重要的知识表示方式之一,为机器语言认知提供了丰富的背景知识,使得机器语言认知成为可能,因而也成为了行业智能化转型道路上的关键技术之一。本报告结合复旦大学相关课题组在基于知识图谱的认知智能化研究与落地实践,系统地介绍知识图谱与认知智能之间的关系,梳理新一代知识工程技术给认知智能带来的全新机遇,介绍基于知识图谱的认知智能落地关键技术,展望以知识图谱为典型代表的知识工程复兴之路。

展开全文

报告摘要:人类社会已经进入智能化时代。各行各业纷纷踏上智能化升级与转型的道路,各类智能化应用需求大量涌现。这些智能化应用需求对于机器认知水平提出了全新要求。实现机器认知智能的关键技术之一是知识库技术。

知识图谱作为大数据时代的重要的知识表示方式之一,为机器语言认知提供了丰富的背景知识,使得机器语言认知成为可能,因而也成为了行业智能化转型道路上的关键技术之一。本报告结合复旦大学相关课题组在基于知识图谱的认知智能化研究与落地实践,系统地介绍知识图谱与认知智能之间的关系,梳理新一代知识工程技术给认知智能带来的全新机遇,介绍基于知识图谱的认知智能落地关键技术,展望以知识图谱为典型代表的知识工程复兴之路。

下文根据肖仰华教授近期所作报告《知识图谱与认知智能》整理而成,并经肖仰华教授亲自审核。

获取完整PPT,请前往

http://kw.fudan.edu.cn/workshop/intro2018

今天跟大家分享的主题是《知识图谱与认知智能》。

知识图谱自2012年提出至今,发展迅速,如今已经成为人工智能领域的热门问题之一,吸引了来自学术界和工业界的广泛关注,在一系列实际应用中取得了较好的落地效果,产生了巨大的社会与经济效益。那么到底是什么在支撑着知识图谱技术的繁荣景象?是一股什么力量让知识图谱技术吸引了如此多的关注?换句话说,知识图谱到底能解决什么问题?何以能够解决这些问题?今天的报告主要围绕着这些问题,给大家做一个初步的解答。

先简单介绍一下整个报告的总体思路。人类社会已经进入智能时代,智能时代的社会发展催生了大量的智能化应用,智能化应用对机器的认知智能化水平提出了前所未有的要求,机器认知智能的实现依赖的就是知识图谱技术。

我想大家已经深刻地感受到我们身处在一个智能化的时代。

从2012年Google的图像识别错误率显著下降,机器在图像识别方面接近人类水平;到2016年AlphaGo战胜了人类围棋冠军;再到2017年AlphaZero战胜了AlphaGo,以及DeepMind去尝试星际争霸游戏,这一系列AI发展的标志性事件让我们看到了人工智能技术帮助解决人类社会发展若干问题的希望。我们已经见证的这一系列人工智能技术的发展,本质上是受益于大数据给人工智能带来的数据红利。

这一波人工智能热潮是在大数据所给予的海量标注样本以及超强计算能力这两个强大的支撑作用下所形成的。可以说,这一波人工智能的发展本质上是大数据喂养出来的。到了今天,可以很自豪地宣告机器智能在感知智能和计算智能等若干具体问题上已经达到甚至超越人类水平。现在,在语音识别与合成、图像识别、封闭环境有限规则的游戏领域等问题上,机器智能水平堪比、甚至超越人类水准。

这一系列人工智能技术的突破性进展,促使各行各业纷纷走向了一条智能化升级和转型的道路。智能化技术尤其为我国传统行业的发展带来了全新机遇,对于我国经济结构升级,以及传统实体行业摆脱当前一系列发展困境带来了全新的机遇。智能化升级和转型已经成为各行各业的普遍诉求。各行业走向智能化的发展道路,在某种意义上也是人类社会发展的必然趋势。

自计算机面世以来,人类社会在经历了计算机技术发展的一系列浪潮之后,基本完成了信息化的使命。信息化时代最重要的任务是数据记录与采集,这势必造就大数据。当我们迈进大数据时代之后,我们势必对大数据的价值挖掘提出诉求。大数据的价值挖掘需要智能化手段。因此大数据时代的到来,某种意义上只是智能化时代的短暂序曲。我相信,未来若干年,计算机技术的主要使命是帮助人类社会实现智能化。

在各行业的智能化发展进程中,AI+或者AI赋能成为了传统行业智能化升级和转型的一个基本模式。在AI的赋能下,传统行业面临着非常多的机遇,其所关心的一系列核心问题,比如增加收入、降低成本、提高效率和安全保障等,都将显著受益于智能化技术。比如智能客服系统已经在很多行业大规模应用,大大降低了人工客服的巨大劳动力成本;一些企业利用知识图谱,对企业内部的研发资源进行管理,显著提升研发效率,这些都是AI可以赋能传统行业的具体体现。

智能化的升级和转型对整个传统行业产生的影响将是颠覆性的,将重塑整个行业的形态,革新传统行业的各个关键环节,智能化技术将逐步渗透到传统行业的各个角落。最近几年我们看到越来越多的传统行业将人工智能领域升格为企业的核心战略,在电商、社交、物流、金融、医疗、司法、制造等很多领域涌现出越来越多的AI赋能传统行业的发展案例。

智能化对机器的智能水平提出了要求,包括机器的计算智能、感知智能,尤其是机器的认知智能。所谓让机器具备认知智能是指让机器能够像人一样思考,而这种思考能力具体体现在机器能够理解数据、理解语言进而理解现实世界的能力,体现在机器能够解释数据、解释过程进而解释现象的能力,体现在推理、规划等等一系列人类所独有的认知能力上。

相较于感知能力,认知能力的实现难度更大,价值也更大。前几年在深度学习的推动下,机器感知能力显著提升。但是感知能力动物也具备,比如我们家里的小猫小狗也能识别主人,识别物体。所以让机器具备感知能力只是让机器具备了一般动物所具备的能力,还不是那么值得“炫耀”的事情。但是,认知能力是人类独有的能力,一旦机器具备认知能力,AI技术将会给人类社会带来颠覆性革命,同时也将释放出巨大的产业能量。所以实现机器的认知能力是人工智能发展进程中具有里程碑意义的重大事件。

随着大数据红利的消失殆尽,以深度学习为代表的感知智能水平日益接近其“天花板”。以深度学习为代表的统计学习严重依赖大样本,这些方法只能习得数据中的统计模式。然而,现实世界很多实际问题的解决单单依靠统计模式是不够的,还需要知识,特别是符号化的知识。

我们人类的语言理解、司法判案、医疗诊断、投资决策等等很多领域都是显著依赖我们的知识才能实现的。很多从事自然语言处理的研发人员普遍有个深刻的感受:即便数据量再大,模型再先进,很多自然语言处理任务,比如中文分词、情感分析达到一定准确率之后,就很难再改进了。

比如,中文分词的一个经典案例:“南京市长江大桥”,不管是分为“南京市长+江大桥”还是“南京市+长江大桥”都依赖我们的知识。如果从上下文我们得知是在讨论南京市长,并且有个人叫“江大桥”,我们会倾向于分为“南京市长+江大桥”,否则我们会根据我们已有的知识断句为“南京市+长江大桥”。不管是哪种情况,我们都在利用我们的知识。我记得我国知名统计学者徐宗本院士在去年年底一个论坛上说过:“数据不够模型补”。我想传达类似的观点:“数据不够知识补”,甚至“数据足够了,知识也不能缺失”。而知识图谱就是这种不可或缺的知识的重要表现形式之一。

机器认知智能绝不是束之高阁、高高在上的前沿技术。它是一类能够实实在在落地的、有着广泛且多样的应用需求的、能够产生巨大社会经济价值的技术。机器认知智能的发展过程本质上是人类脑力不断解放的过程。在工业革命和信息化时代,我们的体力被逐步解放;而随着人工智能技术的发展,尤其是认知智能技术的发展,我们的脑力也将会逐步解放。越来越多的知识工作将逐步被机器所代替,伴随而来的将是机器生产力的进一步解放。机器认知智能在应用方面是广泛和多样的,体现在精准分析、智慧搜索、智能推荐、智能解释、更自然的人机交互和深层关系推理等各个方面。

认知智能的第一个应用抓手就是大数据的精准与精细分析。如今,越来越多的行业或者企业积累了规模可观的大数据。但是这些数据并未发挥出应有的价值,很多大数据还需要消耗大量的运维成本。大数据非但没有创造价值,在很多情况下还成为了一笔负资产。这一现象的根本原因在于,当前的机器缺乏诸如知识图谱这样的背景知识,机器理解大数据的手段有限,限制了大数据的精准与精细分析,从而大大降低了大数据的潜在价值。

举个亲身体验的例子,在娱乐圈王宝强离婚案刚刚开始的时候,新浪微博的热搜前三位分别是“王宝强离婚”、“王宝宝离婚”和“宝强离婚”。也就是说,当时的微博平台还没有能力将这三件事自动归类到一件事,不知道这三件事其实说的是一件事。机器在统计事件热度的时候就分开统计了,这就是因为当时机器缺乏背景知识,不知道王宝强又称为“王宝宝”或“宝强”,所以没有办法做到大数据的精准分析。

事实上,舆情分析、互联网的商业洞察,还有军事情报分析和商业情报分析都需要大数据的精准分析,而这种精准分析就必须要有强大的背景知识支撑。除了大数据的精准分析,数据分析领域另一个重要趋势:精细分析,也对知识图谱和认知智能提出了诉求。比如很多汽车制造厂商都希望实现个性化制造。个性化制造希望从互联网上搜集用户对汽车的评价与反馈,并以此为据实现汽车的按需与个性化定制。为了实现个性化定制,厂商不仅需要知道消费者对汽车的褒贬态度,还需要进一步了解消费者不满意的细节之处,以及消费者希望如何改进,甚至用户提及了哪些竞争品牌。显然面向互联网数据的精细化数据分析必需要求机器具备关于汽车评价的背景知识(比如汽车的车型、车饰、动力、能耗等等)。因此,大数据的精准和精细化分析需要智能化的技术支撑。

认知智能的第二个非常重要的应用抓手是智慧搜索。下一代智慧搜索对机器认知智能提出了需求。智慧搜索体现在很多方面。

首先,体现在搜索意图的精准理解方面。比如在淘宝上搜索“iPad充电器”,用户的意图显然是要搜索一个充电器,而不是一个iPad,这个时候淘宝应该反馈给用户若干个充电器以供选择,而不是iPad。再比如在Google上搜索“toyskids”或者“kidstoys”,不管搜索这两个中的哪一个,用户的意图都是在搜索给孩子的玩具,而不是玩玩具的小孩,因为一般不会有人用搜索引擎搜孩子。“toyskids”和“kid’stoys”中两个词都是名词,要辨别出哪一个是核心词,哪一个是修饰词,在缺乏上下文的短文本上,仍然是个具有挑战性的难题。

其次,搜索的对象越来越复杂多元化。以前搜索的对象以文本为主,现在大家希望能搜索图片和声音,甚至还能搜代码,搜视频,搜设计素材等等,要求一切皆可搜索。

第三、搜索的粒度也越来越多元化。现在的搜索不仅能做篇章级的搜索,还希望能做到段落级、语句级、词汇级的搜索。尤其是在传统知识管理领域,这个趋势已经非常明显。传统的知识管理大都只能做到文档级搜索,这种粗粒度的知识管理已经难以满足实际应用中细粒度的知识获取需求。

最后,是跨媒体的协同搜索。传统搜索以面向单质单源数据的搜索居多。比如针对文本搜索难以借力视频、图片信息,针对图片的搜索主要还是利用图片自身的信息,对于大量文本信息利用率还不高。最近的趋势是跨媒体的协同搜索。比如前几年,明星王珞丹在微博上晒了张自家小区的照片,然后就有好事者根据她的微博社交网络、百度地图、微博文本与图片信息等多个渠道多种媒体的信息,通过联合检索准确推断出其所在小区位置。所以,未来的趋势是一切皆可搜索,并且搜索必达。

认知智能的第三个应用抓手是智能推荐。智能推荐表现在很多方面。

首先是场景化推荐。比如用户在淘宝上搜“沙滩裤”、“沙滩鞋”,可以推测这个用户很有可能要去沙滩度假。那么平台是否能推荐“泳衣”、“防晒霜”之类的沙滩度假常用物品呢?事实上,任何搜索关键字背后,购物篮里的任何一件商品背后都体现着特定的消费意图,很有可能对应到特定的消费场景。建立场景图谱,实现基于场景图谱的精准推荐,对于电商推荐而言至关重要。

第二、任务型推荐。很多搜索背后的动机是完成特定任务。比如用户购买了“羊肉卷”、“牛肉卷”、“菠菜”、“火锅底料”,那么用户很有可能是要做一顿火锅,这种情况下,系统推荐火锅调料、火锅电磁炉,用户很有可能买单。

第三、冷启动下的推荐。冷启动阶段的推荐一直是传统基于统计行为的推荐方法难以有效解决的问题。利用外部知识,特别是关于用户与物品的知识指引冷启动阶段的匹配与推荐,是有可能让系统尽快渡过这个阶段的。第四、跨领域的推荐。

当阿里刚刚入股新浪时,我们在设想是否能将淘宝的商品推荐给微博的用户。比如,如果一个微博用户经常晒九寨沟、黄山、泰山的照片,那么为这位用户推荐一些淘宝的登山装备准没错。这是典型的跨领域推荐,微博是一个媒体平台,淘宝是一个电商平台。他们的语言体系、用户行为完全不同,实现这种跨领域推荐显然商业价值巨大,但却需要跨越巨大的语义鸿沟。

如果能有效利用知识图谱这类背景知识,不同平台之间的这种语义鸿沟是有可能被跨越的。比如百科知识图谱告诉我们九寨沟是个风景名胜,是个山区,山区旅游需要登山装备,登山装备包括登山杖、登山鞋等等,从而就可以实现跨领域推荐。第五、知识型的内容推荐。在淘宝上搜索“三段奶粉”,能否推荐“婴儿水杯”,同时我们是否能推荐用户一些喝三段奶粉的婴儿每天的需水量是多少,如何饮用等知识。这些知识的推荐,将显著增强用户对于推荐内容的信任与接受程度。消费背后的内容与知识需求将成为推荐的重要考虑因素。

所以未来的推荐趋势就是精准感知任务与场景,想用户之未想。推荐技术演进的重要趋势是从单纯基于行为的推荐过渡到行为与语义融合的推荐。换言之,基于知识的推荐,将逐步成为未来推荐技术的主流。

认知智能的第四个应用抓手是智能解释。2017年年底的时候,微信上流传Google17年最流行的搜索关键字是“how”,这说明人们希望Google平台能做“解释”。类似于“如何做蛋炒饭”,“怎么来北理工”等这类问题在搜索引擎上出现次数日益增多,这些问题都在考验机器的解释水平。一个更有意思的例子是,当我们在Google上搜索“DonaldTrump”相关的问题时,你会发现Google会自动提示询问“为什么特朗普的老婆嫁给他”而不再是“特朗普老婆是谁”这类简单事实问题。“why”和“how”问题在现实应用中越来越多。这一趋势实际上体现了人们的一个普遍诉求,那就是希望智能系统具备可解释性。所以可解释性将是智能系统一个非常重要的体现,也是人们对智能系统的普遍期望。

可解释性决定了AI系统的决策结果能否被人类采信。可解释性成为了很多领域(金融、医疗、司法等)中阻碍AI系统落地应用的最后一公里。比如在金融领域的智能投资决策,即便AI决策的准确超过90%,但是如果系统不能给出作出决策的理由,投资经理或者用户恐怕也是十分犹豫的。再比如在医疗领域,即便系统判断疾病的准确率在95%以上,但是如果系统只是告诉病患得了什么病或者开了一个药方,却不能解释为什么作出这类判断的话,病人是不会为此买单的。

智能系统的可解释性体现在很多具体任务中,包括解释过程、解释结果、解释关系、解释事实。事实上,可解释人工智能最近受到了越来越多的关注。在学术界,机器学习,特别是深度学习的黑盒特性,日益成为学习模型实际应用的主要障碍之一。越多越多的学术研究项目旨在打开深度学习的黑盒。美国军方也有项目在尝试解释机器的学习过程。我个人也曾做过《基于知识图谱的可解释人工智能》的研究与思考,旨在强调知识图谱在可解释性方面的重要作用。

智能系统另外一个非常重要的表现方式就是自然人机交互。人机交互将会变得越来越自然,越来越简单。越自然简单的交互方式越依赖强大的机器智能水平。自然人机交互包括自然语言问答、对话、体感交互、表情交互等等。特别是自然语言交互的实现需要机器能够理解人类的自然语言。会话式(ConversationalUI)、问答式(QA)交互将逐步代替传统的关键字搜索式交互。对话式交互还有一个非常重要的趋势就是一切皆可问答。我们的BOTs(对话机器人)将代替我们阅读文章、新闻,浏览图谱、视频,甚至代替我们看电影、电视剧,然后回答我们所关心的任何问题。自然人机交互的实现显然需要机器的较高认知智能水平,以及机器具备强大的背景知识。

认知智能还体现在机器的深层关系发现与推理能力方面。人们越来越不满足于“叶莉是姚明妻子”这样的简单关联的发现,而是希望发现和挖掘一些深层、潜藏关系。这里有一些来自互联网的例子。王宝强离婚的时候,就有人挖过为什么王宝强找张起淮当律师。后来有人把人物关联图谱建立起来,发现王宝强与冯小刚关系很好,而冯小刚有徐静蕾和赵薇两个经常合作的演员,而张起淮是这两个演员的法律顾问。这样的关系链路一定程度上揭示了王宝强与他的律师之间的深层次关联,也解释了王宝强为何选择这位律师。更多类似例子发生在金融领域。在金融领域,我们可能十分关注投资关系,比如为何某个投资人投资某家公司;我们十分关注金融安全,比如信贷风险评估需要分析一个贷款人的相关关联人物和关联公司的信用评级。

我们可以看到,刚才所说的这些需求都在各领域酝酿、发生,这些需求要求机器具备认知能力,要求机器具备理解、解释、规划、推理、演绎、归纳等一系列能力。其中,尤其以理解和解释较为突出。让机器具备认知能力不是今天才提出的问题,早在图灵时代,阿兰-图灵在设计图灵机的时候就在想象机器能不能像人一样思考。而机器认知智能的实现在本质上就是让机器能够像人一样思考。

这里有一个非常重要的观点要分享给大家,我认为实现认知智能是当前以及今后一段时间里AI发展的重要使命之一。更具体一点,理解和解释将是后深度学习时代人工智能最重要的使命之一。之所以说后深度学习时代,是因为深度学习的发展对于大数据红利的使用基本上已经到了尽头,深度学习日益面临性能瓶颈,需要寻求新的思路和方向进行突破。而一个非常重要的突破方向在于知识,在于对于符号知识的利用,在于符号知识与数值模型的融合。而这些努力的最终结果就是使机器具备理解和解释的能力。

如何实现机器的认知能力?或者更具体一点,如何让机器具备理解和解释的能力?我认为知识图谱,或者说以知识图谱为代表的这一波知识工程的一系列技术,在认知智能的实现中起到非常关键的作用。一言以蔽之,知识图谱是实现机器智能的使能器(Enabler)。也就是说没有知识图谱,或许就没有机器认知智能的实现。

知识图谱是什么?我认为知识图谱本质上是一种大规模语义网络。理解知识图谱的概念,有两个关键词。首先是语义网络。语义网络表达了各种各样的实体、概念及其之间的各类语义关联。比如“C罗”是一个实体,“金球奖”也是一个实体,他们俩之间有一个语义关系就是“获得奖项”。“运动员”、“足球运动员”都是概念,后者是前者的子类(对应于图中的subclassof关系)。理解知识图谱的第二个关键词是“大规模”。语义网络并非新鲜事物,早在上个世纪七八十年代知识工程盛行之时,就已存在。相比较于那个时代的语义网络,知识图谱规模更大。关于这一点后面还会深入介绍。

从2012年Google提出知识图谱直到今天,知识图谱技术发展迅速,知识图谱的内涵远远超越了其作为语义网络的狭义内涵。当下,在更多实际场合下,知识图谱是作为一种技术体系,指代大数据时代知识工程的一系列代表性技术进展的总和。去年我国学科目录做了调整,首次出现了知识图谱的学科方向,教育部对于知识图谱这一学科的定位是“大规模知识工程”,这一定位是十分准确且内涵丰富的。这里需要指出的是知识图谱技术的发展是个持续渐进的过程。

从上个世纪七八十年代的知识工程兴盛开始,学术界和工业界推出了一系列知识库,直到2012年Google推出了面向互联网搜索的大规模的知识库,被称之为知识图谱。理解今天的知识图谱内涵,是不能割裂其历史脐带的。

知识图谱的历史发展必然带来一个非常有意思的问题,那就是上世纪七八十年代的知识表示与我们今天的知识图谱到底有什么本质差别?知识工程在图灵奖获得者费根鲍姆以及AI先驱马文明斯基的带领下,曾经兴盛一时,解决了一系列实际应用问题,甚至在数学定理证明等看上去很难的问题上取得了显著进展。时至今日,我们再次讨论作为一种语义网络的知识图谱,会不会只是冷炒饭的再次煎炒而已?知识图谱在当下的火热到底是知识工程的回光返照还是再次中兴?这一系列问题需要得到合理回答。

传统语义网络与知识图谱的差别首先表现在其规模上。知识图谱是一种大规模语义网络,与上世纪七八十年代的各类语义网络相比较,最显著的差异就是规模差异。推而广之,以知识图谱为代表的大数据时代的各种知识表示与传统的知识表示的根本差别首先体现在规模上。传统知识工程一系列知识表示都是一种典型的“小知识”(smallknowledge)。而到了大数据时代,受益于海量数据、强大计算能力以及群智计算,我们如今能够自动化构建、或者众包构建大规模、高质量知识库,形成所谓的“大知识”(bigknowledge,合肥工业大学的吴兴东教授在很多场合下也提到类似观点)。所以知识图谱与传统知识表示在浅层次上的区别,就是大知识与小知识的差别,是在规模上的显而易见的差别。

更深刻的进行分析就会发现,这样的一个知识规模上的量变带来了知识效用的质变。知识工程到了上世纪八十年代之后就销声匿迹了。根本原因在于传统知识库构建主要依靠人工构建、代价高昂、规模有限。举个例子,我国的词林辞海是上万名专家花了10多年编撰而成的,但是它只有十几万词条。而现在任何一个互联网上的知识图谱,比如DBpedia,动辄包含上千万实体。

人工构建的知识库虽然质量精良,但是规模有限。有限的规模使得传统知识表示难以适应互联网时代的大规模开放应用的需求。互联网应用的特点在于:

一、规模巨大,我们永远不知道用户下一个搜索关键词是什么;二、精度要求相对不高,搜索引擎从来不需要保证每个搜索的理解和检索都是正确的;三、简单知识推理,大部分搜索理解与回答只需要实现简单的推理,比如搜索刘德华推荐歌曲,是因为知道刘德华是歌星,至于“姚明老婆的婆婆的儿子有多高”这类的复杂推理在实际应用中所占比率是不高的。

互联网上的这种大规模开放应用所需要的知识很容易突破传统专家系统由专家预设好的知识库的知识边界。我想这一定程度上回答了,为何谷歌在2012年这个时间节点推出知识图谱,利用一个全新名称以表达与传统知识表示毅然决裂的态度。

有人或许会问,那么传统知识表示对于领域应用应该依然有效,为何专家系统后来在领域应用中也不多见了?

这个问题我也曾思考了很长时间,直到后来在很多领域知识图谱的应用实践中意识到一些知识应用的有趣现象,我姑且将这个现象叫做“领域知识的伪封闭”现象。领域知识看似应该是封闭的,也就是不会蔓延至专家预先设定的知识边界范围之外。

但是事实恰好相反,很多领域知识的应用十分易于突破原先设定的边界。比如,我们现在做金融知识图谱,原先我们觉得只有股票、期货、上市公司与金融密切相关,但是实际应用中,几乎万事万物在某种意义下都与金融相关,比如某个龙卷风,可能影响农作物产量,进而影响农业机械的出货量,进而影响了农机发动机,最终影响了这个发动机的上市公司股价。类似这样的关联分析,不正是我们期望智能金融实现的么?而这样的深度关联分析,显然十分容易超出任何专家系统的预先设定的知识边界。因此,某种意义上,知识是普遍关联的,当然关联也是有条件的;领域知识的领域性通常是个伪命题,很多领域知识库的构建要直面通用知识库的构建所面临的同样挑战。

换句话说,领域知识库的深度应用势必涉及通用知识库。这也在一定程度上解释了,我曾经强调的一个观点,那就是通用知识库的研究具有战略意义,不容有失;一万个领域知识研究通透了也未必有一个通用知识库研究透彻价值来的高。通用知识库的研究是在抢占知识库研究的战略制高点,对于领域知识库能够形成战略俯冲。

如果你仍然不满足于我当前的回答,进一步追问决定了领域知识库与通用知识库这种粘连特性的根本原因是什么。那么我想答案在于人类的知识体系。我们的知识是有体系架构的,这个架构的最底层,也就是作为地基支撑整个知识体系的知识就是通用知识。而在通用知识中的最底层应该是常识,也就是我们每个人都知道的知识,特别是我们人类关于时间、空间以及因果的基本常识。整个知识体系是建基在这些通用常识之上,再通过隐喻作为主要手段,逐步形成我们的高层、抽象或者领域性知识。

因此,我想通过一个简单的公式表明传统知识工程与以知识图谱为代表的新一代知识工程的联系与区别:Smallknowledge+Bigdata=Bigknowledge。通过这个公式表达两层意思。一、以知识图谱为代表的大数据时代知识工程有着悠久的历史渊源;知识图谱脱胎于传统知识表示,但是在规模上显著优于传统语义网络;而这种量变也带来知识效用上的质变。这层含义刚才已经阐述,不再赘述。我通过这个公式想强调的是另一层含义:传统知识表示形式林林总总,通过大数据的赋能,这些知识表示将在各个应用场景下发挥巨大能量。知识图谱只不过是传统的语义网络在规模上显著提升,就已经能够解决大量实际问题。

试想一下,我们还有大量其他的知识表示,比如本体、框架、谓词逻辑、马尔科夫逻辑网、决策树等等各种知识表示仍然被锁在规模的牢笼里,一旦规模瓶颈被突破,我相信整个知识工程的产业能量将得到巨大释放。正是在这个意义上,我认为知识图谱只是知识工程复兴的序曲,知识图谱将引领知识工程复兴。我有一种强烈的感觉,好比我们曾经经历了小数据到大数据的轰轰烈烈的时代转变,我们也必将经历从小知识走向大知识的时代转变。

为什么知识图谱对于机器实现人工智能如此重要呢?我们先从形而上的角度来分析这个问题。具体而言,我们分析知识图谱实现机器认知智能的两个核心能力:“理解”和“解释”。我尝试给机器“理解与解释”提出一种解释。我认为机器理解数据的本质是建立起从数据到知识库中的知识要素(包括实体、概念和关系)映射的一个过程。

比如如果我说到“2013年的金球奖得主C罗”这句话,我们之所以说自己理解了这句话,是因为我们把“C罗”这个词汇关联到我们脑子中的实体“C罗”,把“金球奖”这个词汇映射到我们脑中的实体“金球奖”,然后把“得主”一词映射到边“获得奖项”这个关系。

我们可以仔细体会一下我们的文本理解过程,其本质是建立从数据,包括文本、图片、语音、视频等数据到知识库中的实体、概念、属性映射的过程。再来看我们人类是如何“解释”的。比如我问“C罗为什么那么牛?”,我们可以通过知识库中的“C罗获得奖项金球奖”以及“金球奖地位影响力最大的足球奖项之一”这两条关系来解释这一问题。这一过程的本质就是将知识库中的知识与问题或者数据加以关联的过程。有了知识图谱,机器完全可以重现我们的这种理解与解释过程。有过一定计算机研究基础的,是不难完成上述过程的数学建模的。

知识图谱对机器认知智能的必要性还可以从若干具体问题来进行阐述。

首先,我们来看机器认知的核心能力之一:自然语言理解。我的观点是机器理解自然语言需要类似知识图谱这样的背景知识。自然语言是异常复杂的:自然语言有歧义性、多样性,语义理解有模糊性且依赖上下文。机器理解自然语言困难的根本原因在于,人类语言理解是建立在人类的认知能力基础之上的,人类的认知体验所形成的背景知识是支撑人类语言理解的根本支柱。

我们人类彼此之间的语言理解就好比是根据冰山上浮出水面的一角来揣测冰山下的部分。我们之所以能够很自然地理解彼此的语言,是因为彼此共享类似的生活体验、类似的教育背景,从而有着类似的背景知识。冰山下庞大的背景知识使得我们可以彼此理解水面上有限的几个字符。我们可以做个简单的思想实验,假如现在有个外星人坐在这里听我讲报告,他能听懂么?我想还是很困难的,因为他没有在地球上生活的经历,没有与我相类似的教育背景,没有与我类似的背景知识库。

再举个很多人都有体会的例子,我们去参加国际会议时,经常遇到一个尴尬的局面,就是西方学者说的笑话,我们东方人很难产生共鸣。因为我们和他们的背景知识库不同,我们早餐吃烧饼、油条,西方吃咖啡、面包,不同的背景知识决定了我们对幽默有着不同的理解。所以语言理解需要背景知识,没有强大的背景知识支撑,是不可能理解语言的。要让机器理解我们人类的语言,机器必需共享与我们类似的背景知识。

实现机器自然语言理解所需要的背景知识是有着苛刻的条件的:规模足够大、语义关系足够丰富、结构足够友好、质量足够精良。以这四个条件去看知识表示就会发现,只有知识图谱是满足所有这些条件的:知识图谱规模巨大,动辄包含数十亿实体;关系多样,比如在线百科图谱DBpedia包含数千种常见语义关系;结构友好,通常表达为RDF三元组,这是一种对于机器而言能够有效处理的结构;质量也很精良,因为知识图谱可以充分利用大数据的多源特性进行交叉验证,也可利用众包保证知识库质量。所以知识图谱成为了让机器理解自然语言所需的背景知识的不二选择。

既然机器理解自然语言需要背景知识,我对于当前的自然语言处理有个重要看法:我认为自然语言处理走向自然语言理解的必经之路是知识,我将我的这个观点表达为NLP+KB=NLU的公式。很多NLP从业人员有个体会,明明论文里面报道的在某个benchmark数据95%准确率的模型一旦用到实际数据上,至少有10个百分点的下降。而最后那几个点的准确率的提升需要机器理解自然语言。这一点在司法、金融、医疗等知识密集型的应用领域已经体现的非常明显了。比如在司法领域,如果不把司法背后的事理逻辑、知识体系赋予机器,单纯依赖字符数据的处理,是难以实现司法数据的语义理解的,是难以满足司法文本的智能化处理需求的。

因此,NLP将会越来越多地走向知识引导的道路。NLP与KB将走向一条交迭演进的道路。在知识的引导下,NLP模型的能力越来越强,越来越强大的NLP模型,特别是从文本中进行知识抽取的相关模型,将会帮助我们实现更为精准地、自动化抽取,从而形成一个质量更好、规模更大的知识库。更好的知识库又可以进一步增强NLP模型。这种循环迭代持续下去,NLP最后将会非常接近NLU,甚至最终克服语义鸿沟,实现机器的自然语言理解。

最近几年,这条技术演进路线日渐清晰,越来越多的顶尖学者有着与我类似的看法,我的研究团队沿着这条路径做了很多尝试,初步看来效果显著。当然这些都是一家之言。也有不少人认为依靠纯数据驱动的自然语言处理模型也可实现机器的自然语言理解,特别是当下深度学习在自然语言处理方面还十分流行,我所倡导的知识引导下的NLP发展路径多少有些显得不合时宜。

这里,通过一个实际案例论证知识对于NLP的重要作用。在问答研究中,自然语言问题的理解或者语义表示是一个难题。

同样语义的问题表达方式往往是多样的,比如不论是howmanypeoplearethereinShanghai?还是whatisthepopulationofShanghai,都是在问上海人口。又或者形式上看上去很接近的问题,实质语义相差很大,比如“狗咬人了吗”与“人咬狗了吗”语义完全不同。

当问题答案来自于知识库时,这类问题就属于KBQA(面向知识库的自然语言问答)的研究内容。KBQA的核心步骤是建立从自然语言问题到知识库中的三元组谓词的映射关系。比如上面的两个与上海人口相关的问题,都可以映射到知识库中的Population这个谓词。一种简单的办法是让机器记住问题到谓词的映射规则,比如机器记住“HowmanypeoplearethereinShanghai?”映射到上海这个实体的Population谓词上。但这种方法没有把握问题语义本质,如果用同样的句式问及北京、南京,甚至任何一个城市人口呢?难道机器需要为每个实例记住这些映射么?显然我们人类不是如此理解问题语义的,我们是在“Howmanypeoplearetherein$City?”这个问题概念模板层次把握问题语义的实质的。利用概念模板不仅避免了暴力式的记忆,同时也能让机器具备类人的推理能力。

比如,如果问到“HowmanypeoplearethereinXXX?”,机器只要知道XXX是个city,那么这个问题一定是在问XXX的人口数量。那么我们怎么生成这种问题概念模板呢,我们用概念图谱。概念图谱里面含有大量的类似shanghaiisacity,beijingisacity这类知识。充分利用这些知识可以得到自然语言问题的有效表示,从而实现机器对于自然语言问题的语义理解。

知识图谱对于认知智能的另一个重要意义在于:知识图谱让可解释人工智能成为可能。“解释”这件事情一定是跟符号化知识图谱密切相关的。因为解释的对象是人,人只能理解符号,没办法理解数值,所以一定要利用符号知识开展可解释人工智能的研究。可解释性是不能回避符号知识的。

我们先来看几个解释的具体例子。比如,我若问鲨鱼为什么可怕?你可能解释说:因为鲨鱼是食肉动物,这实质上是用概念在解释。若问鸟为什么能飞翔?你可能会解释因为它有翅膀。这是用属性在解释。若问鹿晗关晓彤前些日子为什么会刷屏?你可能会解释说因为关晓彤是鹿晗的女朋友。这是用关系在解释。我们人类倾向于利用概念、属性、关系这些认知的基本元素去解释现象,解释事实。而对于机器而言,概念、属性和关系都表达在知识图谱里面。因此,解释离不开知识图谱。

沿着这个思路,我们做了一些初步尝试,我们首先试着利用知识图谱做可解释推荐。我们目前的互联网推荐,只能给我们推荐结果,却无法解释为什么。可解释推荐将是未来推荐研究的重要领域,将是具有巨大商业价值的研究课题。我们初步实现了可解释的实体推荐。若用户搜索了“百度”和“阿里”,机器推荐“腾讯”,并且解释为什么推荐“腾讯”,因为他们都是互联网巨头、都是大型IT公司。这里实质上是在利用概念展开解释,这些概念可以在很多概念图谱,比如英文概念图谱Probase,和中文概念图谱CN-Probase里找到。

另一个例子是让机器解释概念。比如向机器提及“单身汉”这个概念,机器能否自动产生“男性”、“未婚”这样的属性用于解释这个概念。我们针对富含实体、概念和属性信息的大型百科图谱展开挖掘,自动挖掘出常见概念的定义性属性。这些定义性属性可以帮助我们完善概念图谱,也就是为概念图谱上的每个概念补充定义性属性信息;进一步可以利用这些信息让机器利用属性对于实体进行准确归类。这一归类过程本质上是在模拟人类的范畴化过程。

知识图谱的另一个重要作用体现在知识引导将成为解决问题的主要方式。前面已经多次提及用户对使用统计模型来解决问题的效果越来越不满意了,统计模型的效果已经接近“天花板”,要想突破这个“天花板”,需要知识引导。

举个例子,实体指代这样的文本处理难题,没有知识单纯依赖数据是难以取得理想效果的。比如“张三把李四打了,他进医院了”和“张三把李四打了,他进监狱了”,人类很容易确定这两个不同的“他”的分别指代。因为人类有知识,有关于打人这个场景的基本知识,知道打人的往往要进监狱,而被打的往往会进医院。但是当前机器缺乏这些知识,所以无法准确识别代词的准确指代。很多任务是纯粹的基于数据驱动的模型所解决不了的,知识在很多任务里不可或缺。比较务实的做法是将这两类方法深度融合。

实际上在很多NLP应用问题中,我们在尝试用知识引导突破性能瓶颈。比如在中文实体识别与链接中,针对中文短文本,在开放语境下,在没有充分上下文,缺乏主题信息的前提下,这一问题仍然十分困难,现在工业界最高准确率大概60%多的水平。当前机器仍然难以理解中文文本中的实体。最近,我们利用中文概念图谱CN-Probase,给予中文实体识别与链接任务以丰富的背景知识,取得了十分显著的效果。我们知道打球的李娜和唱歌的李娜不是同一个人,现在即便这两人在文本中同时被提及,机器也能准确识别并加以区分。

知识对于认知智能又一个很重要的意义就是将显著增强机器学习的能力。

当前的机器学习是一种典型的“机械式”学习方式,与人类的学习方式相比显得比较笨拙。我们的孩童只需要父母告知一两次:这是猫,那是狗,就能有效识别或者区分猫狗。而机器却需要数以万计的样本才能习得猫狗的特征。我们中国学习英语,虽然也要若干年才能小有所成,但相对于机器对于语言的学习而言要高效的多。

机器学习模型落地应用中的一个常见问题是与专家知识或判断不符合,这使我们很快陷入进退两难的境地:是相信学习模型还是果断弃之?机器学习与人类学习的根本差异可以归结为人是有知识的且能够有效利用知识的物种。

我相信,未来机器学习能力的显著增强也要走上知识的充分利用的道路。符号知识对于机器学习模型的重要作用会受到越来越多的关注。这一趋势还可以从机器智能解决问题的两个基本模式方面加以论述。机器智能的实现路径之一是习得数据中的统计模式,以解决一系列实际任务。另一种是专家系统,专家将知识赋予机器构建专家系统,让机器利用专家知识解决实际问题。

如今,这两种方法有合流的趋势,无论是专家知识还是通过学习模型习得的知识,都将显式地表达并且沉淀到知识库中。再利用知识增强的机器学习模型解决实际问题。这种知识增强下的学习模型,可以显著降低机器学习模型对于大样本的依赖,提高学习的经济性;提高机器学习模型对先验知识的利用率;提升机器学习模型的决策结果与先验知识的一致性。我个人倾向于认为:机器学习也面临一次全新机遇。我将其总结为ML+KB=ML2,也就是说机器学习在知识增强下或许就是下一代机器学习。

沿着上面的思路我们也做了一些尝试。在自然语言生成任务中,我们的机器学习模型,特别是深度生成模型会经常生成很多不符合语法、或者不符合语义的句子。我们人类显然可以总结出很多语法语义规则用于描述什么是好的自然语言语句。但是这些知识还很难被机器有效利用。这就需要把语法、语义知识用规则、符号的方式表达出来,并有效融合到深度生成模型里面。最近,我们基于对抗生成网络初步实现了这一目标。并将融合了先验知识的语言生成模型用于从知识库三元组自动生成自然语言问题,并将这一技术用于文本验证码。具体技术细节可以参考我曾做过的一个技术报告《未来人机区分》。

知识将成为比数据更为重要的资产。前几年大数据时代到来的时候,大家都说“得数据者得天下”。去年,微软研究院的沈向阳博士曾经说过“懂语言者得天下”。而我曾经论述过,机器要懂语言,背景知识不可或缺。因此,在这个意义下,将是“得知识者得天下”。如果说数据是石油,那么知识就好比是石油的萃取物。如果我们只满足卖数据盈利,那就好比是直接输出石油在盈利。但是石油的真正价值蕴含于其深加工的萃取物中。石油萃取的过程与知识加工的过程也极为相像。都有着复杂流程,都是大规模系统工程。我今天的报告就是在当前的时代背景下重新解读图灵奖获得者,知识工程的鼻祖,费根鲍姆曾经说过的一句话“knowledgeisthepowerinAI”。这句话已经出现几十年了,在当今语境下需要重新解读。

最后用三个总结结束今天的报告。总结1概括了这个报告的主要观点。总结2试图再次强调我的三个观点。总结3想用一句话再次强调知识的重要性。知识的沉淀与传承铸就了人类文明的辉煌,也将成为机器智能持续提升的必经之路。只不过到了机器身上,知识的沉淀变成了知识的表示,知识的传承变成了知识的应用。所以,知识的沉淀和传承不仅铸就了人类文明的辉煌,或许也将造就机器智能的全新高度。返回搜狐,查看更多

责任编辑:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇