沈浩:博弈论在人工智能中的应用
什么是博弈论?
所以,什么是博弈论?相信你一定接触过这个概念,但可能从没有真正深入其中。不过,现在的人工智能领域中,这是个有趣且具有启发性的主题。
让我们先给博弈论一个正式的定义。
“博弈论可以被定义为——对两个或两个以上的理性Agents或参与者之间可能的相互作用的建模。”
本文中,我们将Agent理解为一个主体(行为人)。
在博弈论中,我们必须强调“理性”这个关键词,因为它是博弈论的基础。但是“理性”究竟是什么意思?
我们可以简单的将“理性”理解为,每个主体(Agent)都知道其他主体也是理性的,并且拥有与该主体同等的理解与知识水平。
此外,“理性”也意味着,在考虑到其他主体行为前提下,该主体总倾向于得到更高的报酬或回报。
简而言之,每个主体都是自私的,并试图将回报最大化。
“我知道,你知道我知道你是理性的”(左),“是的,我知道”(右)
既然我们了解了“理性”的意义,让我们来处理一些与博弈论有关的关键词:
博弈:一般来说,博弈包括一系列的玩家、动作、策略和最终的报酬,例如拍卖、国际象棋、政治问题等等
玩家:玩家是参与博弈的理性主体。
例如,
博弈:一般来说,博弈包括一系列的玩家、动作、策略和最终的报酬,例如拍卖、国际象棋、政治问题等等
玩家:玩家是参与博弈的理性主体。
例如,
拍卖中的竞标者
玩石头剪刀布的玩家
参加选举的政治家等
拍卖中的竞标者
玩石头剪刀布的玩家
参加选举的政治家等
报酬:报酬是所有玩家在达到某种结果时的得到的回报,它可以是积极的,也可以是消极的。正如我们之前所讨论的,每个主体都是自私的,希望得到最大化的报酬:
报酬:报酬是所有玩家在达到某种结果时的得到的回报,它可以是积极的,也可以是消极的。正如我们之前所讨论的,每个主体都是自私的,希望得到最大化的报酬:
“选举中,党派得到的席位数”(左),“成功的手术台数”(中),“是否能成为族群领袖(右)”
博弈论中的纳什均衡
纳什均衡是人工智能博弈论的“基石”。纳什均衡是一个由玩家选择的行为:
“没有一个玩家愿意改变他们的行动,不使自己处于纳什均衡,意味着没有发挥到最佳状态。一旦玩家违背纳什均衡,就意味着,对方将有机会改变策略使你的收益变差。”
或可以如此理解“考虑到其他所有主体都是理性的,他们会为自己选择最佳的行动,那么达到纳什均衡的行为,对我来说就是最佳对策。”
为了了解行为中的纳什均衡,让我们来解决博弈论中最常见的问题:囚徒困境。这是一个经典的案例,它说明了在主体只关心自身利益的情况下,为了共同利益或互惠而合作行动是十分困难的。
在这个案例中,存在两个犯人,Alan和Ben,他们因同一罪行而被捕,并被关押在两个不同的审讯室。他们有两个选择:
保持沉默
承认罪行
假设他们都做出了选择,那么,就会产生4种不同的结果:
·{沉默,沉默}
·{承认,沉默}
·{沉默,承认}
·{承认,承认}
这四种结果可以很方便地用博弈矩阵来表示:
在这种表示中,收益以(Alan收益,Ben收益)的形式表示。我们以列表示Alan的选择,行表示Ben的选择。
他们的选择都将导致负收益,因为根据选择,他们将被监禁的时间是预先确定的(尽管不是他们所希望的)。
结果收益如下:
如果他们都保持沉默,则都将被监禁1年
如果其中一人承认罪行,而另一人沉默,则坦白者将被释放,而另一人将被判处15年监禁
如果两人都承认罪行,则他们都将被判处10年监禁
这个困境来源于两个囚犯都不清楚另一人的选择,那么在这个情况下,什么样的行动将达到纳什均衡?理想状况下,两个犯人将合作保持沉默。(红框中的选择)
但我们也知道,犯人一定希望自己被判处最少的监禁时间,以得到最大利益。因此,在即使保持沉默,也将被判处1年监禁的情况下,实际上会发生的将可能是:
如果Ben承认了罪行,那么坦白是更好的选择(10年监禁好于15年监禁);同时,如果Ben保持沉默,那么坦白同样是最好的选择(释放好于1年监禁)
我们可以看到,这个博弈矩阵与Alan所想的完美契合。那么,如果Ben如果也在进行博弈选择,他的博弈矩阵将是:
让我们假设Ben也像Alan一样经历了理性的思考过程。那么同样的,Ben将得到相似结论——无论Alan怎样选择,他总可以从坦白中受益。如果我们将两个囚犯的理性思考一起考虑,结果将是:
以结果来说,最好的对策是{承认,承认}。即使他们中的任何一个不采取这个行为,他们也只会得到比这个策略更糟糕的结果。因此,{承认,承认}是一个纳什均衡。
“因为都承认了罪行,我们要在监狱10年。如果我们没承认,就只需要1年”。
“是的!但如果我不承认,你一样会为了不去监狱而承认。那么我就要去监狱15年。我很庆幸我承认了。”
很有道理,对吧?对于纳什均衡来说,我们可以得到:对于任何博弈,它都是一个“无悔”的解决方案,但却并不一定是最理想的。
博弈的种类
我们刚刚看到的是囚徒困境的一个例子,两个囚犯必须同时做出一个决定,用博弈矩阵的形式来表示。这些类型的博弈通常被称为“标准式博弈”。
在博弈论中,根据不同的标准,博弈可以分为许多不同的种类。
1.主体之间的交互
直观上,我们可以根据博弈中的主体是以竞争还是合作为目标来区分博弈的种类。
政治竞选是竞争博弈的好例子,一个候选人的报酬就意味着另一个候选人的失败。另一方面,篮球比赛可以被看作是一场合作博弈,每个运动员彼此合作以赢得更多的回报。
2.主体是如何运作的
我们也可以根据博弈的同时性和扩展性来进行分类。
为了理解这一点,我们可以以一个叫做“性别之战”的问题为例。
假设Bob和Amy是两个十分要好的朋友。他们很清楚彼此的爱好,足球和舞会。他们可以一起商量这个周末的游玩计划,或者给对方一个惊喜。如果他们都计划给对方惊喜,那么他们就不会知道对方的周末计划。以下博弈矩阵描述了4中不同的情况。
博弈矩阵清楚地表示,如果Bob和Amy没有成功碰面,那么他们都不会得到回报。这是一个同时性的博弈案例,在这个博弈中,两个玩家同时行动,并且事先不知道其他玩家的行动。
另一方面,如果他们告诉对方各自的计划来进行行动,博弈将成为以下形式:
我做出最初的决定,因此我的决定节点在树顶。我可以在足球(左枝)和舞会(右枝)之间选择”。
“我有两个选择节点。但是一旦Amy告诉了我她的选择,那么将只有一个节点与我相关。如果她选择了舞会,那么我就会在该选择节点进行选择。”
这是一个扩展型博弈或“回合制博弈”的案例。在这种博弈中,每个玩家都可以看到对方的行动。
另一个更直观的例子,石头剪刀布游戏就是同时型博弈。另一方面,井字游戏就是扩展型博弈。
3.基于信息的分类
在博弈论中,参与者往往不能得到完全的信息。他们可能不知道其他玩家的所有可能决策或潜在收益。玩家也可能不知道他们在和什么样的人打交道,或者他们的动机是什么。
根据对其他主体的了解程度,博弈可以大致分为三类:
·完美信息博弈
·不完美信息博弈
·不完全信息博弈
完美信息博弈:(下左)
在完美信息情况下,每个主体都知道:
·其他主体可以采取的所有可能行为
·他们正在进行的行为
·他们得到多少回报
井字游戏和国际象棋就是最好的例子。当涉及到现世界时,完美信息博弈是非常罕见的。此外,机器学习和深度学习方法在这种博弈中表现出色。
不完美信息博弈:(上右)
在这种情况下,主体知道其他主体的性质和动机,以及在所有可能结果中会得到的回报。但不知道其他主体正在进行的行为。
这里,将军知道每一种可能情况下敌人的动机和回报。但是他无法知道敌人藏在哪里。因此,将军不知道他所在的确切决策节点(虚线框)。不完美信息博弈在现实世界中经常出现。
不完全信息博弈:
不完全信息是一种非常接近真实世界的模型。主体没有关于其他主体的“类型”信息。即使任意特定主体能够知道其他主体采取的行动,他也不知道其他主体的动机,或采取这种行动的回报。
本质上,不完全信息博弈是最广义的博弈形式。
扑克游戏是不完全信息博弈的一个典型案例,因为玩家不知道对手手中的牌是好是坏。
我们特别关注扑克游戏中的博弈,因为它不完全信息的性质很好地代表了真实世界。因此,不完全信息博弈问题一直被认为是人工智能领域的一个基准问题。
人工智能中的博弈论
那么,以上的一切在人工智能的背景下意味着什么。这些不同类型的博弈和信息与人工智能有什么关系呢?
就人工智能而言,博弈论的基本作用是帮助决策。考虑到“理性”是博弈论的基础这一事实,这并不是很难理解。实际上,博弈论已经开始在人工智能领域占据一席之地。
生成对抗网络(GANs)就是这样的一个重要应用。GANs被YannLeCun认为是:“过去20年中机器学习领域最酷的想法。”(YannLeCun是人工智能和深度学习领域的领头人之一)。那么博弈论在GANs中是如何起作用的呢?
为了回答这个问题,我们首先要了解GANs的基础知识。一个GAN就是两个神经网络的组合,即:
·生成器
·鉴别器
生成器是一个产生随机图像的神经网络。另一方面,鉴别器将试图对生成的随机图像进行分类——应属于给出的数据集?或只是一个生成的假图像。
如果鉴别器将生成的图像分类为假图像,那么生成器将调整其参数;另一方面,如果鉴别器将生成的图像分类为来自数据集,那么鉴别器将调整其参数。
这种竞争过程将一直进行,并持续到无法再改进的状态。这个状态就是“纳什均衡”。从本质上讲,这是两个神经网络之间的竞争博弈,但在竞争中,它们不断的优化自己以得到纳什均衡状态。
博弈论的核心应用是不完美信息博弈。扑克游戏是一个经典的例子,也是人工智能应用在不完美信息状态下的基准问题。
在现实世界中,不完美信息是非常重要的。但至今为止,机器学习和深度学习在不完美信息博弈方面的成功十分有限。
德州扑克无限制版就是一个不完美信息博弈的案例,因为其他玩家隐藏了所持牌的信息。考虑到这个扑克游戏中,所持牌有10的161次方种可能,而可观测宇宙中的总原子数也只是10的82次方,可见这是一个非常具有挑战性的问题。
因此,使用暴力方法对这个游戏进行建模是完全不可能的。当然,也有人尝试过使用深度学习和深度强化学习,但到目前为止知识效果平平。
但是由卡内基梅隆大学的教授TuomasSandholm和人工智能研究员NoamBrown开发的,名为Libratus的人工智能程序表现优于以前的任何方法。在超过20000手扑克牌中,Libratus战胜了世界冠军。Libratus的神奇之处在于它不使用任何机器学习的方法!
博弈论就是Libratus的核心思想。与深度学习和强化学习等相比,它并不需要极高的计算能力。为了更多地了解博弈论是如何应用到Libratus中的,以及博弈论在未来人工智能中的引用。
另一方面,人们经常争论机器学习和深度学习是否可以用于现实中的案例,因为现实世界中的案例往往是是不完全信息博弈,大多数机器学习和深度学习方法都会遇到很大困难。
博弈论方法方法由于其在现实世界中的普遍性而逐渐得势。最好的例子就是“AIForSocialGood”项目的负责人MilindTambe所做的工作——利用博弈论概念处理现实世界中的问题,比如:
·公共安全
·野生动物保护
·公共卫生等
博弈论小测验
本文详细讨论了博弈论。就让我们以一个快速的突击测验来结束吧!
在0-100之间随机选择一个数字。如果你给出的数字是这次测验中所有玩家给出的数字平均值的三分之二,那么你就将获胜。(提示:你应该考虑其他玩家也和你一样理性)
你能回答这个问题吗?
结语
在这篇文章中,我们讨论了博弈论的基本原理,并简要地涵盖了必要的主题。我们甚至谈到了博弈论是如何被应用到机器学习领域的,以及它在现实世界中的应用。但这只是一篇介绍性的文章——在以后的文章中,我们将更深入地探讨博弈论,以及如何将其应用到人工智能领域,并从技术角度进行阐述。
注:大部分图片来自伊万帕斯汀的《介绍博弈论》一书。
本文来源:人工智能学家
C2
连云港
南京
武汉
西安
北京
北京
北京返回搜狐,查看更多
人工智能发展现状及应用
导读:人工智能(ArtificialIntelligence),英文缩写为AI。人工智能被认为是第四次科技革命的核心驱动力,目前许多领域都在探索AI技术的应用,可谓方兴未艾。那么什么是人工智能,它经历了怎样的发展历程,现阶段发展状况如何,它有哪些应用。本篇文章就为大家做个简单分享。同时也会为大家详细介绍一下百度的AI技术体系。
本文主要内容:
1.人工智能概念
①智能
②人工智能
2.人工智能的发展
①人工智能的发展历程
②AI是中国的机遇
3.AI与百度
①百度AI的发展历程
②百度AI的技术体系
③百度AI的场景化应用
1.人工智能概念
1.1智能
谈到人工智能,需要首先理解“智能”一词的具体含义。智能是指人类才具有的一些技能。人在进行各种活动的过程中,从感觉到记忆再到思维产生了智慧,智慧产生了人类本身的行为和语言,行为和语言统称为能力;智慧和能力结合在一起就是人工智能中的智能一词。
比如,人类的语言表达能力就是一种智能(语言智能);人类进行复杂数学运算的能力也是一种智能(数字逻辑智能);人类的交往能力也是一种智能(人际智能),人们对音调、旋律、节奏、音色的感知能力,也是一种智能(音乐智能)。他们都属于智能的范畴。
1.2人工智能
把智能的概念与人的逻辑理解相结合,并应用到机器中,让机器能更好的模拟人的相关职能,这就是人工智能。人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。
人工智能概念,最早可以追溯到上世纪90年代初,这个时候需要提到一位科学家:图灵。
艾伦·麦席森·图灵(英语:AlanMathisonTuring,1912年6月23日—1954年6月7日),英国数学家、逻辑学家,被称为计算机科学之父,人工智能之父。
图灵最早定义了什么是人工智能,怎样去界定一个机器(或一个设备)是否具备智能。他最早提出了图灵测试(即:一个人在不接触对方的情况下,经过某种特殊的方式和对方进行一系列的问答,如果在某些时间之内,他无法根据这些问题判断对方是人还是计算机,那么我们就认为这台机器具备智能化的思维)。直到2000年左右,才真正有计算机通过了图灵测试,才实现了一个突破。在2014年图灵测试大会上,出现了一个通过图灵测试的机器(或者称为智能聊天的机器人)。这两年人工智能的高速发展,也印证了最早的图灵测试,这也让我们反向看到了图灵在人工智能定义方面做出的突出贡献。
现今,在做图灵测试时,判断这个设备是否具备人工智能,更多的还是从模拟人的角度来考量。但在当前科技背景下,人工智能需要涵盖更广的内容,它不仅仅要模拟人本身的职能,还需要具备一些扩展、替代甚至延伸的职能。
举个例子,在医疗领域,需要经常在实验室进行病毒化验,人处这样的实验环境下会比较危险,经常会出现一些事故,如果能够用机器替代人来做这些实验,这些事故就可以避免。此时,这台机器就不仅仅是在模拟人,而是在替代人,机器本身就具备了替代人的能力。
当前,很多人在担忧:人工智能的发展会不会对人类造成威胁。其实,目前人工智能还处于早期的阶段(或者称之为婴幼儿阶段),我们还处于弱人工智能时代。
当然,随着时间的推移,将来我们可能会把弱人工智能时代推进到强人工智能,甚至再往前推进到超人工智能和智能爆炸时代。但至少目前,我们离这样的时代还有非常远的距离,要实现这样的目标,需要非常多的时间积累,可能要通过几代人甚至十几代人的努力。所以大家不要有过多的担心,人工智能现在更多的还是用于服务人类,用来提高人们的工作效率。
上图引自MIT大学一位教授。
针对人工智能所覆盖的领域,这位教授提出一个观点:“我们要尽可能避免做这些容易“进水”的工作,以免被日后所淘汰掉”。
这张图水平面以下的工作,如存储,计算、甚至象棋活动等,已经被海平面淹没。在海平面边缘的工作,如翻译、驾驶、视觉和音频等,很有可能在未来的一段时间,随着技术的进步也会被淹没。再来看图上高海拔地区的工作,如艺术创新、科学研究,文学创作等,让人工智能替代人类去做这些工作,在现阶段是比较困难的。要让人工智能实现像人一样具备主观能动性,还需要比较长的时间。我们在选择工作,或者在做技术探索的时候,应该从更高的层面布局,而把那些可以被人工智能替代的工作交给计算机去做,这样我们就可以从一些重复性、冗余性的工作中抽离出来,去专门从事创造性的工作(比如艺术创作等)。
2.人工智能的发展2.1人工智能的发展历程我们回顾一下人工智能发展的历程。
人工智能并不是特别新鲜的词,在计算机出现后不久,大家就已经开始探索人工智能的发展了。
1943到1956年这段时间,为人工智能的诞生期,期间有很多人尝试用计算机进行智能化的应用,当然此时不能称为人工智能,只是有类似的概念。
人工智能的分水岭是1956年达特茅斯会议,在本次会议上正式提出了AI这个词。
1956到1974年这段时间,是人工智能发展的黄金时代,是人工智能的第1个高速发展期,通常把这段时间称之为人工智能大发现时代。
1974到1980年这6年的时间里,进入了人工智能发展的第1个低谷,在这个低谷期,出现了非常多的问题,比如计算上的问题、存储上的问题、数据量的问题,这些问题限制了人工智能的发展。
1980到1987年这段时间是人工智能的第2个繁荣期。期间诞生了大量的算法,推动了神经网络的高速发展,同时出现了许多专业的科研人员,发表了许多创造性的论文。
1987到1993年这段时间是人工智能的第2个低谷期,期间有个词叫“AI之冬”。有大量的资本从AI领域撤出,整个AI科研遇到了非常大的财政问题,这是导致”AI之冬”的主要原因。
1993年之后,人工智能又进入到高速发展期,期间出现了许多经典案例,比如1997年IBM公司的深蓝案例,2001年IBM的沃森案例,2016年谷歌AlphaGo案例。这些案例是人工智能在应用层面的体现。
上图概括了人工智能的发展历程。
可以看到,从1956年达特茅斯会议AI这个词诞生,一直发展到现在,人工智能共经历了60多年的跌宕起伏,并不是仅在2016、2017这两年间才出现了人工智能这个概念。
从宏观上看,AI的发展历程经历了三次比较大的起伏。
第1次起伏是从1943年到1956年,首次出现了神经网络这个词,把人工智能推到一个高峰,期间出现了许多大发现。而第1次低谷使人工智能进入到了反思的阶段,人们开始探讨人工智能的应用。
第2次起伏是在上世纪80年代,期间BP算法的出现,神经网络新概念的普及,推动了人工智能又进入第2次高峰和发展。然而从1987年到1993年又进入到了了第2次低谷,这主要因为一些财政原因导致。
第3次起伏从2006年开始,由辛顿提出了深度学习的概念,把神经网络往前推动了一大步,也把人工智能推到了高速发展阶段,尤其是近几年在非结构化领域取得了许多突破(例如在语音与视觉方面),给人工智能进入商业化应用带来许多的基础性技术沉淀。
人工智能为什么会在前面的发展过程里遇到了那么多的坎坷?为什么在最近这几年会进入一个高速发展期?
我们归结了近几年人工智能高速发展的三点原因:
①算力飞跃
人工智能(尤其是深度学习),对底层计算能力的要求非常高。早期的计算受到了极大限制,从CPU发展到了GPU,使得算力几乎能达到几倍甚至十几倍量级的增长。再从GPU到TPU,计算速度能达到15~30倍的增长,使得在算力层面不断取得突破。此外,大量云资源的出现将我们计算的成本压到了最低,我们在处理海量计算的同时,也可以享受比较低的成本。再者,芯片技术的发展,使得端处理能力持续提高,这些都帮助我们在算力层面取得了很大的突破。
②数据井喷
从PC互联网时代到移动互联网时代,再到可穿戴设备的应用,都产生了大量的数据。这两年,每年产生的数据量可以达到50%左右的增长。2017年到2018年,这段时间内基本上每个月产生的数据量可以达到几十个亿的量级,数据量已经非常高。物联网的连接,能帮助我们把更多的数据采集回来,帮助我们在数据层面做更多的积累,这是数据井喷带来的积极影响。
③算法突破
近几年来,从机器学习到深度学习,算法不断取得突破。使得我们可以处理更多的大规模、无监督、多层次等复杂业务。
算法、算力、数据是人工智能的三要素,算力是骨骼,数据是血液和食物,算法就是大脑,三者不断取得突破,才能促进人工智能高速发展。
2.3AI是中国的机遇
人工智能技术的发展也促进了很多产业的发展。中国目前有非常好的历史机遇,不仅仅是在技术上有大量的积累,同时,国家也为人工智能的发展提供了非常好的政策环境。此外,市场空间、资金支持、人才储备,也都为人工智能的发展提供了非常好的条件。
通过上图可以看到,人工智能的研发人才目前还比较短缺。图上数据来源于领英在2017年所做的全球AI人才报告。以2017年的数据来看,全球人工智能专业的人才数量超过190万,在这190万人才中,美国处于第一梯队,有85万+;而中国在人工智能领域的人才积累比较少,从数据上来看,目前国内人工智能方面的专业技术人才可能只有5万+,当然这是2017年的数据,现在可能会有一些增长,但是量级也没有达到我们想象的那么大。
所以从国内目前来看,这约5-10万的AI技术人才,对比AI产业的高速发展需求,两者之间有巨大矛盾。那怎样更好的用这些人才作为突破,把人工智能方面的技术人才储备提高到百万级别。这正是整个百度(包括百度的教育合作与共建,包括百度所有对外输出的体系,包括我们今天所做的课程)所努力的方向,我们期望通过百度的技术赋能,真正的帮助人工智能取得更好的人才积累,真正培养一些在未来对人工智能行业有巨大贡献的专业人才,这是百度现在的定位目标。
AI浪潮已然到来,行业人工智能时代已经到来。目前,人工智能已经大量应用在2c和2b领域,怎么让人工智能跟具体行业有更好的接触,产生更多的积累,是我们正在重点探索的方向。
比如百度的搜索引擎,已经融入了很多AI元素。模糊匹配、拍照识图、深度挖掘检索等都应用到了大量的人工智能技术。
再如推荐系统,他会基于个人的一些喜好和历史阅读习惯来给用户做一些内容的推荐和匹配,这是很典型的结合大数据做的精准应用,实际上也属于人工智能的范畴。
再如人脸识别技术、语音技术、智慧交通和无人驾驶等,都是AI技术与行业应用的融合,并且这些技术正在不断取得突破。百度现在L4级别的无人驾驶车已经初步实现了一些小规模的量产,未来会有更多的人将真正的体会到无人驾驶给生活带来的便利。
3.AI与百度3.1百度AI的发展历程
上图为百度在人工智能领域的发展轨迹,早在2009年,百度就开始尝试探索人工智能相关技术,直到2019年,百度用了近十年的时间布局人工智能。
2009年尝试性布局人工智能,2013年发布IDL,2014年成立硅谷实验室以及百度研究院,2015年首次发布DuerOS,2016年发布百度大脑1.0版本,同年,百度的自动驾驶技术进入试运营状态,2017年是百度人工智能技术高速发展的一年,不仅成立了深度学习国家实验室,同时也成立了硅谷第二实验室以及西雅图实验室,并且Apollo平台开始运行并对外推广,在2018年到2019年,DuerOS和Apollo平台发展到3.0版本,百度大脑发展到5.0版本。经过近十年的发展和积累,百度的人工智能技术目前处于相对领先的位置。
百度在人工智能领域领域取得的进展有目共睹,比如,百度成立了首个国家级AI实验室;2016年被美国《财富》杂志评选为深度学习领域四大巨头之一;百度的刷脸支付、强化学习、自动驾驶等技术入选MIT2017年全球十大突破性技术;在AI领域,百度的中国专利申请超过2000项。
3.2百度AI的技术体系
百度的技术体系非常全面,覆盖了计算体系、大数据技术体系以及人工智能技术体系等,在机器学习、深度学习、区块链、知识图谱、自然语言处理、量子计算等领域均有雄厚的技术积累。这些技术可以按内容划分成三个板块,第一是A板块(即AI技术板块),第二是B板块(即大数据板块),第三是C板块(即云计算板块)。这就是百度在2016年提出的ABC概念。从一开始的1.0版本,发展到如今的3.0版本,代表着百度在人工智能领域的整体布局。在人工智能领域的布局中,百度的探索不仅停留在最核心的技术上,也同时将核心技术与更多的领域相结合,如边缘计算、物联网(InternetofThings,IoT)和区块链等,得到了如ABC+区块链、ABC+DuerOS、ABC+Apollo等对外输出模式,向各行各业提供解决方案。
在A板块中,将百度大脑分成了不同的层次。最底层是算法层,包含机器学习和深度学习算法,使用百度的PaddlePaddle深度学习框架提供算法层的基础支撑;算法层之上为感知层,感知层可分为对声音的感知和对光的感知,其中,对声音的感知主要是语音技术板块,对光的感知主要是图像技术、视频技术、AR/VR等技术板块;在感知层之上是认知层,认知层更多的是处理人类听到和看到的内容,对其进行深度理解,深度理解需要自然语言处理(NLP/NLU)、知识图谱等技术作为支撑,同时也需要积累大量用户画像数据,这些技术能帮助人们快速的理解和分析人类听到和看到的内容,并对内容进行有效的反馈,这是认知层面的技术;在认知层之上是平台层,平台层将底层的内容进行融合、封装,对外提供开放、完整的AI技术,并引入大量的生态合作伙伴,共同探讨人工智能产业的布局。
百度人工智能整体技术体系,最底层是深度学习框架飞桨PaddlePaddle,作为底层计算框架,飞桨PaddlePaddle支撑着上层场景化能力与平台中的全部板块。在场景化能力与平台中,包含了诸多场景大板块,每个大板块下又细分为多个技术板块,比如语音板块包含了语音合成以及语音唤醒等技术板块;计算机视觉技术中的OCR技术,包括传统通用OCR识别,以及垂直领域OCR的识别,可以对30多个OCR识别领域进行精准识别,比如票据识别、证件识别以及文字识别等;在人脸/人体识别板块,同时也会引入图像审核以及图像识别方面的技术;在视频板块,有视频比对技术,视频分类和标注技术,以及视频审核技术;在自然语言处理板块,有机器翻译技术;知识图谱板块,有AR/VR技术。这些板块构成了人工智能体系的技术蓝图。
近两年来,人工智能技术在各行各业中的应用不断加深,实践证明,单一的技术在落地时会受到诸多限制,所以现在人工智能在落地时可能不仅仅用到某一个单独的技术板块,而是需要先把这些板块进行融合,然后再进行实际应用,比如在拍照翻译的应用场景下,既需要用到OCR技术,同时也用到NLP技术。因此在实际应用中,需要综合各个板块的技术,把不同的技术体系和技术内容有机地融合起来,再去解决行业中面临的痛点。
3.3百度AI的场景化应用
2014年到2015年期间,在计算机视觉领域的部分场景下,计算机视觉识别准确率已经超过了人眼识别。而利用深度学习技术的计算机听觉识别,在2017年左右也已经超过人耳听力极限。
人工智能业务场景化不仅依赖底层的硬件资源,也需要超大规模的标注数据,这是监督学习的特点,所以在人工智能早期研究中,有评论说“有多少人工就有多少智能”,这句话在特定角度来看是具有一定意义的。在监督学习中,训练模型需要庞大的标注数据,再结合GPU强大的数据处理能力去训练特定模型,也就是从算法的层面去做更多的工作,在训练模型的过程中需要发挥人的主观能动性,更好的解决在行业应用中出现的一些痛点,构建出行业专属的模型。
比如,将人体分析技术应用到实际行业场景中时,需要结合人脸识别技术和人体识别技术。可以通过基础手势识别,识别一个人在开车时有没有系安全带、是不是在打电话等。
利用人体分析技术,可以做到行为识别,首先设定特定区域,然后对区域内的人员行为进行识别,比如人群过密、区域越界、人员逆行、徘徊以及吸烟等,在特定场景下,行为识别能够帮助用户避免安全隐患。
自然语言处理有很多相关技术,比如说词法分析、词向量表示、语义相似度、短文本相似度、情感相似度分析等。这些技术用在不同的应用场景下。
在公检法系统应用中,为了避免出现非常严重的问题,如同案不同判,具体解决方案是当诉讼呈递给法官时,根据当前诉讼内容在公检法系统中寻找历史上类似的案件,参考历史类似案件的判决,给法官提供判案依据。
在媒体领域应用中,对基础的财经类新闻,可以由机器进行新闻文章的编写,即机器写作。这些技术都是基于NLP在相应领域做的智能化应用,可以让编辑或记者从重复性的工作中解脱出来。
人工智能从广义上来看,也包括大数据及云计算相关技术,这些技术也都涵盖在百度AI技术体系中。在大数据领域,主要包括数据采集、数据存储、数据分析以及数据可视化等,利用这些技术,我们在进行模型训练的时候,对数据进行科学的管理可以帮助我们提高模型训练效率。
百度AI技术体系也提供算力层面的支持,通过GPU服务器以及FPGA服务器提供的算力,更好的解决应用层面的问题。
百度AI就是这样一个从基础层,到感知层、认知层的完整体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。
回顾本篇文章,我们和大家分享了人工智能的相关概念,人工智能的发展历程,从中也可以看出AI是我们的历史机遇。同时本文也为大家详细介绍了百度的AI技术体系,经过10余年的努力,百度AI已经形成从基础层,到感知层、认知层的完整技术体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。