6大人工智能应用关键技术,终于有人讲明白了
导读:我国《人工智能标准化白皮书(2018年)》中也给出了人工智能的定义:“人工智能是利用数字计算机或者由数字计算机控制的机器,模拟、延伸和扩展人类的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术和应用系统。”
人工智能的核心思想在于构造智能的人工系统。人工智能是一项知识工程,利用机器模仿人类完成一系列的动作。根据是否能够实现理解、思考、推理、解决问题等高级行为。
在未来,人工智能应用主要会体现如下几大核心技术特点。
作者:达观数据
来源:大数据DT(ID:hzdashuju)
01机器人流程自动化(RoboticProcessAutomation,RPA)
RPA(RoboticProcessAutomation,机器人流程自动化)的定义:通过特定的、可模拟人类在计算机界面上进行操作的技术,按规则自动执行相应的流程任务,代替或辅助人类完成相关的计算机操作。
与大家通常所认为的具备机械实体的“机器人”不同,RPA本质上是一种能按特定指令完成工作的软件,这种软件安装在个人计算机或大型服务器上,通过模拟键盘、鼠标等人工操作来实现办公操作的自动化。
▲图1-1RPA是未来办公创新和发展的趋势
RPA也被形象地称为数字化劳动力(DigitalLabor),是因为其综合运用了大数据、人工智能、云计算等技术,通过操纵用户图形界面(GUI)中的元素,模拟并增强人与计算机的交互过程,从而能够辅助执行以往只有人类才能完成的工作,或者作为人类高强度工作的劳动力补充。
自2015年以来,人工智能技术和RPA在同一时间大幅度发展和进步,恰好相辅相成,汇合在了一起。自然而然地,RPA和AI两者的结合运用,带来了一股非常独特的智能化应用的发展潮流,我们称之为智能RPA技术,或者IPA技术(IntelligentProcessingAutomation),即智能流程自动化技术(如图1-2所示)。
▲图1-2智能RPA的构成:RPA+AI=IPA
换句话说就是,RPA是基础,需要与其他技术手段整合在一起,方能实现IPA及其优势。
商业社会对流程自动化的功能的期望将与日俱增,将机器学习等AI技术运用到RPA中,将人工智能功能集成到产品套件中,以提供更多类型的自动化功能,已经成为未来RPA发展的主流趋势。
02光学字符识别(OpticalCharacterRecognition,OCR)
OCR技术是指利用电子设备(例如扫描仪或数码相机)将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。通俗地说就是,对文本资料进行扫描,然后对图像文件进行分析处理,以获取文字及版面信息的技术。
OCR技术一般可分为如图3-1所示的5个阶段。
▲图3-1OCR技术的5个阶段
下面具体说明OCR的识别流程。
1.图像处理
针对图像的成像问题进行修正。常见的图像预处理过程包括:几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正、二值化处理等。
2.文字检测
检测文本所在位置、范围及其布局,通常还包括版面分析和文字行检测等。文字检测解决的主要问题是哪里有文字,文字的范围有多大。
文字检测采用的处理算法一般包括:Faster-RCNN、Mask-RCNN、FPN、PANet、Unet、IoUNet、YOLO、SSD。
3.文字识别
在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为计算机可识别和处理的文本信息。文字识别主要解决的问题是每个文字是什么。
文字识别常采用的处理算法包括:CRNN、AttentionOCR、RNNLM、BERT。
4.文本抽取
从文字识别结果中抽取出需要的字段或要素。
文本抽取常采用的处理算法包括:CRF、HMM、HAN、DPCNN、BiLSTM+CRF、BERT+CRF、Regex。
5.输出
输出最终的文字识别结果或者文本抽取结果。
03机器学习/大数据分析
机器学习/大数据分析是一种用于设计复杂模型和算法并以此实现预测功能的方法,即计算机有能力去学习,而不是依靠预先编写的代码。它能够基于对现有结构化数据的观察,自行识别结构化数据中的模型,并以此来输出对未来结果的预测。
机器学习是一种通过“监督”和“无监督”学习来识别结构化数据中的模式(例如日常性能数据)的算法。监督算法是指在根据自己的输入做出预测之前,会从输入和输出的结构化数据集来进行学习。无监督算法是指观察结构化数据,并对已识别的模式提供相关见解。
机器学习和高级分析可能会改变保险公司的游戏规则,例如,在提高合规性、降低成本结构,以及从新的见解中获得竞争优势。高级分析已经在领先的人力资源部门中得到了广泛应用,主要用于确定和评估领导者和管理者的核心品质,以便更好地预测行为、规划职业发展道路和下一任领导岗位归属。
04自然语言生成(NaturalLanguageGeneration,NLG)
计算机具有与人一样的表达能力和写作能力,它遵循某种规则,将从数据中观察到的信息转换成高质量的自然语言文本。例如,自动识别会议邮件中的主题、数字地名、人名地址并生成行程表备忘录,或者识别出合同条款的关键内容并将摘要的重点生成列表。
关于自然语言生成及自然语言处理的详细介绍,请阅读《详解自然语言处理5大语义分析技术及14类应用(建议收藏)》
05智能工作流(SmartWorkflow)
智能工作流是一种用于流程管理的软件工具,其中集成了由人和机器共同执行的工作,允许用户实时启动和跟踪端到端流程的状态,以便于管理不同组之间的切换,包括机器人与人类用户之间的切换,同时还能提供瓶颈阶段的统计数据。
随着社会和科技的不断进步,各个领域都开始逐步朝着自动化、智能化的方向快速发展。工作流相关技术的研究也越来越受重视,并广泛地应用于制造业、软件开发、银行金融、生物医学等不同领域。
工作流不但能够自动化地处理相关的活动和任务,减少人机交互处理过程中带来的潜在错误,而且能够精确化每一个处理步骤,最大化地提高生成效率,并且将工作流应用到动态、可变且灵活的应用场景当中。
近年来,在大数据、人工智能的背景下,工作流中的业务流程日趋复杂,所面临的环境和数据也日趋复杂,由需求分析引起的业务过程重新建模或由维护升级引起的过程模式变更和改进也变得越来越频繁。
在这种动态多变的复杂环境下,如何快速识别出任务,然后快速高效并有针对性地处理工作流问题,已成为目前工作流任务研究的关键问题。
RPA软件机器人在工作过程中,也会遇到很多类似的情况。工作流的复杂多变,会导致RPA作业流程的复杂多变,使其无法做到自适应,这将会大大影响RPA软件机器人的作业效率。
因此,需要通过智能工作流的技术,实现动态地调整RPA里的任务设定,以及RPA业务流程的自动变更和自动升级,在智能工作流的指导下实现自适应作业模式。
实现智能工作流的方法有很多,比如,美国J.H.Holland教授提出的基于遗传算法的工作流调度,PandeyS等提出的基于粒子群优化算法的启发式算法(PSO)可用于不同资源的智能调度。除此之外,还有很多基于自然界和仿生学的智能算法,比如,混合蛙跳算法、布谷鸟搜索算法、蝙蝠算法、人工蜂群算法等。
目前比较常见的方法是实现一种基于智能规划的工作流处理模式,该模式不再是单纯地将不同的活动当作对彼此没有影响的单独事件,而是有针对性地考虑多个事件的共同影响。
该模式充分考虑了工作流和智能规划之间的相似之处,通过智能规划推导出不同工作流任务之间的内在逻辑关系,并从其他的渠道和外部信息中充分挖掘潜在的关系。
逐步改进传统工作流中的问题,使用全新的智能规划的手段,从表面动作中挖掘出潜在的信息,过滤噪声数据,进而实现流程的自动修正,最后,通过前面得出的结论,有针对性地修改之前的RPA作业流程,实现自适应性的作业模式和作业过程。
06认知智能体(CognitiveAgent)
认知智能体是一种结合了机器学习和自然语言生成的技术,并在此基础上加入情感检测功能以做出判断和分析,使其能够执行任务,交流沟通,从数据集中学习,甚至根据情感检测结果作出决策。换句话说,机器会像人一样产生“情感共鸣、精神共振”,真正成为一个完全虚拟的劳动力(或者智能体)。
在客服领域,英国某汽车保险公司通过使用认知智能体技术,将客户转化率提高了22%,验证错误率降低了40%,整体投资回报率达到了330%。
当然,德勤、安永等咨询公司也坦然表示,就现阶段许多企业的流程管理与系统的基础能力来看,仍存在着大量的基础建设工作有待开展。而打造智能流程自动化所需的部分核心技术(例如认知智能体等)也还停留在雏形阶段。
智能包含三个方面,分别是计算智能、感知智能和认知智能。
在计算智能方面,计算机的速度早已远远超过人工的效率。
在感知智能方面,随着OCR、NLP等技术的发展,目前也已经能够实现很多的效果。
但是在认知智能方面,即使在某些特定领域,自然语言的处理也已经可以得到比人工更好的成绩,但是在某些领域,特别是知识理解、知识推理、知识判断等方面,还有很多需要逐步积累、逐步完善的地方。
按照机器能否产生自我认知和机器人的适用范围,人工智能分为弱人工智能和强人工智能,其中弱人工智能里的机器没有自我意识,不具备真正的推理和独立解决问题的能力,通常只适用于解决特定条件下的某种问题。当前人工智能的研究主要在弱人工智能领域。
而在强人工智能方面,机器具有一定的自我意识,能够通过学习拓展功能。对于当前不具备的功能或者当前不了解的知识,能通过自行学习获得。
当前条件下,全面的强人工智能还面临技术能力、社会伦理等多方面的挑战,但是在某些领域的特定场景下,具备认知智能能力和学习能力的人工智能软件,不仅能够优化作业流程、快速响应、覆盖更多不同的情况,同时还能够最大限度地避免技术风险和应用风险,是一个非常有价值的研究方向。
认知智能有很多种定义,其中,复旦大学肖仰华教授曾经提到过,所谓让机器具备认知智能是指让机器能够像人一样思考,而这种思考能力具体体现在如下几个方面。
第一,机器具备能够理解数据、理解语言进而理解现实世界的能力。
第二,机器具备能够解释数据、解释过程进而解释现象的能力。
第三,机器具备推理、规划等一系列人类所独有的认知能力,也就是说认知智能需要解决推理、规划、联想、创作等一系列复杂任务。
智能体是指驻留在某一环境下,能够持续自主地发挥作用,具备驻留性、反应性、社会性、主动性特征的计算实体。根据著名人工智能学者,美国斯坦福大学Hayes-Roth教授的理论“智能体能够持续执行三项功能:感知环境中的动态条件、执行动作影响环境、进行推理以解释感知信息、求解问题和决定动作”。
从前面的定义我们可以看出,认知智能体能够感知到环境中的动态条件,然后根据这些条件执行相应的动作来影响现有的环境,同时其还能够用推理来解释感知信息,求解相关问题,决定后续动作。
将认知智能体与RPA相结合,我们能够得到一个具备认知智能的机器人,它可以根据所涉及的应用系统和其他环境的变化动态感知下一步需要做的事情,同时执行相应的动作来影响对应的环境信息,实现智能录入、智能监控、智能文档处理和辅助判定。
与此同时,认知智能体通过RPA技术在处理业务的同时,还能够学习到相关的经验和知识,逐步掌握识别重点的能力。
认知智能体的研究包含了多种不同的方法,近年来,随着分布式人工智能、信息科学和网络科学的不断发展,面向动态环境下的分布式协同决策已经成为认知智能体的一个重要的研究方式。这种方式在以多无人机系统、多机器人系统为代表的典型无中心式多智能体系统中得到了广泛的应用。
与此同时,受限于自身设计,智能体对所在环境和系统常呈现出信息的部分可观测特征,而有限的智能体之间的交互和外部的约束也使得获得全局信息需要付出极高的代价。
同时,无中心式的多智能体系统在应用中呈现出了与社会网络相类似的自组结构和相应的复杂网络特征,即网络中单个智能体通常仅能连接/交互所在局部网络中的小部分智能体,传统的集中式协同模型则不再适用。
此外,类似于社会网络中人与人之间的有限信息交换便可大大提升个体的决策效率,同样的方法能否应用到相应的研究当中,也处于不断的尝试过程中。
关于作者:达观数据,中国智能RPA领域的龙头企业,独立开发了全套“RPA+AI”系统,拥有核心知识产权。达观智能RPA产品是业界不依赖微软底层开发框架、未使用第三方开源框架的RPA产品。
本文摘编自《智能RPA实战》,经出版方授权发布。
延伸阅读《智能RPA实战》
点击上图了解及购买
转载请联系微信:DoctorData
推荐语:这是一部从实战角度讲解“AI+RPA”如何为企业数字化转型赋能的著作,从基础知识、平台构成、相关技术、建设指南、项目实施、落地方法论、案例分析、发展趋势8个维度对智能RPA做了系统解读,为企业认知和实践智能RPA提供全面指导。
划重点????
干货直达????
西安交大送大一新生这本书,你读过吗?12本有趣有料的科普书盘点
终于有人把AI、BI、大数据、数据科学讲明白了
监督学习、非监督学习、强化学习都是什么?终于有人讲明白了
一条SQL引发的“血案”:与SQL优化相关的4个案例
更多精彩????
在公众号对话框输入以下关键词
查看更多优质内容!
PPT | 读书 | 书单 | 硬核 | 干货 | 讲明白 | 神操作
大数据 | 云计算 | 数据库 | Python | 可视化
AI | 人工智能 | 机器学习 | 深度学习 | NLP
5G | 中台 | 用户画像 | 1024 | 数学 | 算法 | 数字孪生
据统计,99%的大咖都完成了这个神操作
????
人工智能发展现状及应用
导读:人工智能(ArtificialIntelligence),英文缩写为AI。人工智能被认为是第四次科技革命的核心驱动力,目前许多领域都在探索AI技术的应用,可谓方兴未艾。那么什么是人工智能,它经历了怎样的发展历程,现阶段发展状况如何,它有哪些应用。本篇文章就为大家做个简单分享。同时也会为大家详细介绍一下百度的AI技术体系。
本文主要内容:
1.人工智能概念
①智能
②人工智能
2.人工智能的发展
①人工智能的发展历程
②AI是中国的机遇
3.AI与百度
①百度AI的发展历程
②百度AI的技术体系
③百度AI的场景化应用
1.人工智能概念
1.1智能
谈到人工智能,需要首先理解“智能”一词的具体含义。智能是指人类才具有的一些技能。人在进行各种活动的过程中,从感觉到记忆再到思维产生了智慧,智慧产生了人类本身的行为和语言,行为和语言统称为能力;智慧和能力结合在一起就是人工智能中的智能一词。
比如,人类的语言表达能力就是一种智能(语言智能);人类进行复杂数学运算的能力也是一种智能(数字逻辑智能);人类的交往能力也是一种智能(人际智能),人们对音调、旋律、节奏、音色的感知能力,也是一种智能(音乐智能)。他们都属于智能的范畴。
1.2人工智能
把智能的概念与人的逻辑理解相结合,并应用到机器中,让机器能更好的模拟人的相关职能,这就是人工智能。人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。
人工智能概念,最早可以追溯到上世纪90年代初,这个时候需要提到一位科学家:图灵。
艾伦·麦席森·图灵(英语:AlanMathisonTuring,1912年6月23日—1954年6月7日),英国数学家、逻辑学家,被称为计算机科学之父,人工智能之父。
图灵最早定义了什么是人工智能,怎样去界定一个机器(或一个设备)是否具备智能。他最早提出了图灵测试(即:一个人在不接触对方的情况下,经过某种特殊的方式和对方进行一系列的问答,如果在某些时间之内,他无法根据这些问题判断对方是人还是计算机,那么我们就认为这台机器具备智能化的思维)。直到2000年左右,才真正有计算机通过了图灵测试,才实现了一个突破。在2014年图灵测试大会上,出现了一个通过图灵测试的机器(或者称为智能聊天的机器人)。这两年人工智能的高速发展,也印证了最早的图灵测试,这也让我们反向看到了图灵在人工智能定义方面做出的突出贡献。
现今,在做图灵测试时,判断这个设备是否具备人工智能,更多的还是从模拟人的角度来考量。但在当前科技背景下,人工智能需要涵盖更广的内容,它不仅仅要模拟人本身的职能,还需要具备一些扩展、替代甚至延伸的职能。
举个例子,在医疗领域,需要经常在实验室进行病毒化验,人处这样的实验环境下会比较危险,经常会出现一些事故,如果能够用机器替代人来做这些实验,这些事故就可以避免。此时,这台机器就不仅仅是在模拟人,而是在替代人,机器本身就具备了替代人的能力。
当前,很多人在担忧:人工智能的发展会不会对人类造成威胁。其实,目前人工智能还处于早期的阶段(或者称之为婴幼儿阶段),我们还处于弱人工智能时代。
当然,随着时间的推移,将来我们可能会把弱人工智能时代推进到强人工智能,甚至再往前推进到超人工智能和智能爆炸时代。但至少目前,我们离这样的时代还有非常远的距离,要实现这样的目标,需要非常多的时间积累,可能要通过几代人甚至十几代人的努力。所以大家不要有过多的担心,人工智能现在更多的还是用于服务人类,用来提高人们的工作效率。
上图引自MIT大学一位教授。
针对人工智能所覆盖的领域,这位教授提出一个观点:“我们要尽可能避免做这些容易“进水”的工作,以免被日后所淘汰掉”。
这张图水平面以下的工作,如存储,计算、甚至象棋活动等,已经被海平面淹没。在海平面边缘的工作,如翻译、驾驶、视觉和音频等,很有可能在未来的一段时间,随着技术的进步也会被淹没。再来看图上高海拔地区的工作,如艺术创新、科学研究,文学创作等,让人工智能替代人类去做这些工作,在现阶段是比较困难的。要让人工智能实现像人一样具备主观能动性,还需要比较长的时间。我们在选择工作,或者在做技术探索的时候,应该从更高的层面布局,而把那些可以被人工智能替代的工作交给计算机去做,这样我们就可以从一些重复性、冗余性的工作中抽离出来,去专门从事创造性的工作(比如艺术创作等)。
2.人工智能的发展2.1人工智能的发展历程我们回顾一下人工智能发展的历程。
人工智能并不是特别新鲜的词,在计算机出现后不久,大家就已经开始探索人工智能的发展了。
1943到1956年这段时间,为人工智能的诞生期,期间有很多人尝试用计算机进行智能化的应用,当然此时不能称为人工智能,只是有类似的概念。
人工智能的分水岭是1956年达特茅斯会议,在本次会议上正式提出了AI这个词。
1956到1974年这段时间,是人工智能发展的黄金时代,是人工智能的第1个高速发展期,通常把这段时间称之为人工智能大发现时代。
1974到1980年这6年的时间里,进入了人工智能发展的第1个低谷,在这个低谷期,出现了非常多的问题,比如计算上的问题、存储上的问题、数据量的问题,这些问题限制了人工智能的发展。
1980到1987年这段时间是人工智能的第2个繁荣期。期间诞生了大量的算法,推动了神经网络的高速发展,同时出现了许多专业的科研人员,发表了许多创造性的论文。
1987到1993年这段时间是人工智能的第2个低谷期,期间有个词叫“AI之冬”。有大量的资本从AI领域撤出,整个AI科研遇到了非常大的财政问题,这是导致”AI之冬”的主要原因。
1993年之后,人工智能又进入到高速发展期,期间出现了许多经典案例,比如1997年IBM公司的深蓝案例,2001年IBM的沃森案例,2016年谷歌AlphaGo案例。这些案例是人工智能在应用层面的体现。
上图概括了人工智能的发展历程。
可以看到,从1956年达特茅斯会议AI这个词诞生,一直发展到现在,人工智能共经历了60多年的跌宕起伏,并不是仅在2016、2017这两年间才出现了人工智能这个概念。
从宏观上看,AI的发展历程经历了三次比较大的起伏。
第1次起伏是从1943年到1956年,首次出现了神经网络这个词,把人工智能推到一个高峰,期间出现了许多大发现。而第1次低谷使人工智能进入到了反思的阶段,人们开始探讨人工智能的应用。
第2次起伏是在上世纪80年代,期间BP算法的出现,神经网络新概念的普及,推动了人工智能又进入第2次高峰和发展。然而从1987年到1993年又进入到了了第2次低谷,这主要因为一些财政原因导致。
第3次起伏从2006年开始,由辛顿提出了深度学习的概念,把神经网络往前推动了一大步,也把人工智能推到了高速发展阶段,尤其是近几年在非结构化领域取得了许多突破(例如在语音与视觉方面),给人工智能进入商业化应用带来许多的基础性技术沉淀。
人工智能为什么会在前面的发展过程里遇到了那么多的坎坷?为什么在最近这几年会进入一个高速发展期?
我们归结了近几年人工智能高速发展的三点原因:
①算力飞跃
人工智能(尤其是深度学习),对底层计算能力的要求非常高。早期的计算受到了极大限制,从CPU发展到了GPU,使得算力几乎能达到几倍甚至十几倍量级的增长。再从GPU到TPU,计算速度能达到15~30倍的增长,使得在算力层面不断取得突破。此外,大量云资源的出现将我们计算的成本压到了最低,我们在处理海量计算的同时,也可以享受比较低的成本。再者,芯片技术的发展,使得端处理能力持续提高,这些都帮助我们在算力层面取得了很大的突破。
②数据井喷
从PC互联网时代到移动互联网时代,再到可穿戴设备的应用,都产生了大量的数据。这两年,每年产生的数据量可以达到50%左右的增长。2017年到2018年,这段时间内基本上每个月产生的数据量可以达到几十个亿的量级,数据量已经非常高。物联网的连接,能帮助我们把更多的数据采集回来,帮助我们在数据层面做更多的积累,这是数据井喷带来的积极影响。
③算法突破
近几年来,从机器学习到深度学习,算法不断取得突破。使得我们可以处理更多的大规模、无监督、多层次等复杂业务。
算法、算力、数据是人工智能的三要素,算力是骨骼,数据是血液和食物,算法就是大脑,三者不断取得突破,才能促进人工智能高速发展。
2.3AI是中国的机遇
人工智能技术的发展也促进了很多产业的发展。中国目前有非常好的历史机遇,不仅仅是在技术上有大量的积累,同时,国家也为人工智能的发展提供了非常好的政策环境。此外,市场空间、资金支持、人才储备,也都为人工智能的发展提供了非常好的条件。
通过上图可以看到,人工智能的研发人才目前还比较短缺。图上数据来源于领英在2017年所做的全球AI人才报告。以2017年的数据来看,全球人工智能专业的人才数量超过190万,在这190万人才中,美国处于第一梯队,有85万+;而中国在人工智能领域的人才积累比较少,从数据上来看,目前国内人工智能方面的专业技术人才可能只有5万+,当然这是2017年的数据,现在可能会有一些增长,但是量级也没有达到我们想象的那么大。
所以从国内目前来看,这约5-10万的AI技术人才,对比AI产业的高速发展需求,两者之间有巨大矛盾。那怎样更好的用这些人才作为突破,把人工智能方面的技术人才储备提高到百万级别。这正是整个百度(包括百度的教育合作与共建,包括百度所有对外输出的体系,包括我们今天所做的课程)所努力的方向,我们期望通过百度的技术赋能,真正的帮助人工智能取得更好的人才积累,真正培养一些在未来对人工智能行业有巨大贡献的专业人才,这是百度现在的定位目标。
AI浪潮已然到来,行业人工智能时代已经到来。目前,人工智能已经大量应用在2c和2b领域,怎么让人工智能跟具体行业有更好的接触,产生更多的积累,是我们正在重点探索的方向。
比如百度的搜索引擎,已经融入了很多AI元素。模糊匹配、拍照识图、深度挖掘检索等都应用到了大量的人工智能技术。
再如推荐系统,他会基于个人的一些喜好和历史阅读习惯来给用户做一些内容的推荐和匹配,这是很典型的结合大数据做的精准应用,实际上也属于人工智能的范畴。
再如人脸识别技术、语音技术、智慧交通和无人驾驶等,都是AI技术与行业应用的融合,并且这些技术正在不断取得突破。百度现在L4级别的无人驾驶车已经初步实现了一些小规模的量产,未来会有更多的人将真正的体会到无人驾驶给生活带来的便利。
3.AI与百度3.1百度AI的发展历程
上图为百度在人工智能领域的发展轨迹,早在2009年,百度就开始尝试探索人工智能相关技术,直到2019年,百度用了近十年的时间布局人工智能。
2009年尝试性布局人工智能,2013年发布IDL,2014年成立硅谷实验室以及百度研究院,2015年首次发布DuerOS,2016年发布百度大脑1.0版本,同年,百度的自动驾驶技术进入试运营状态,2017年是百度人工智能技术高速发展的一年,不仅成立了深度学习国家实验室,同时也成立了硅谷第二实验室以及西雅图实验室,并且Apollo平台开始运行并对外推广,在2018年到2019年,DuerOS和Apollo平台发展到3.0版本,百度大脑发展到5.0版本。经过近十年的发展和积累,百度的人工智能技术目前处于相对领先的位置。
百度在人工智能领域领域取得的进展有目共睹,比如,百度成立了首个国家级AI实验室;2016年被美国《财富》杂志评选为深度学习领域四大巨头之一;百度的刷脸支付、强化学习、自动驾驶等技术入选MIT2017年全球十大突破性技术;在AI领域,百度的中国专利申请超过2000项。
3.2百度AI的技术体系
百度的技术体系非常全面,覆盖了计算体系、大数据技术体系以及人工智能技术体系等,在机器学习、深度学习、区块链、知识图谱、自然语言处理、量子计算等领域均有雄厚的技术积累。这些技术可以按内容划分成三个板块,第一是A板块(即AI技术板块),第二是B板块(即大数据板块),第三是C板块(即云计算板块)。这就是百度在2016年提出的ABC概念。从一开始的1.0版本,发展到如今的3.0版本,代表着百度在人工智能领域的整体布局。在人工智能领域的布局中,百度的探索不仅停留在最核心的技术上,也同时将核心技术与更多的领域相结合,如边缘计算、物联网(InternetofThings,IoT)和区块链等,得到了如ABC+区块链、ABC+DuerOS、ABC+Apollo等对外输出模式,向各行各业提供解决方案。
在A板块中,将百度大脑分成了不同的层次。最底层是算法层,包含机器学习和深度学习算法,使用百度的PaddlePaddle深度学习框架提供算法层的基础支撑;算法层之上为感知层,感知层可分为对声音的感知和对光的感知,其中,对声音的感知主要是语音技术板块,对光的感知主要是图像技术、视频技术、AR/VR等技术板块;在感知层之上是认知层,认知层更多的是处理人类听到和看到的内容,对其进行深度理解,深度理解需要自然语言处理(NLP/NLU)、知识图谱等技术作为支撑,同时也需要积累大量用户画像数据,这些技术能帮助人们快速的理解和分析人类听到和看到的内容,并对内容进行有效的反馈,这是认知层面的技术;在认知层之上是平台层,平台层将底层的内容进行融合、封装,对外提供开放、完整的AI技术,并引入大量的生态合作伙伴,共同探讨人工智能产业的布局。
百度人工智能整体技术体系,最底层是深度学习框架飞桨PaddlePaddle,作为底层计算框架,飞桨PaddlePaddle支撑着上层场景化能力与平台中的全部板块。在场景化能力与平台中,包含了诸多场景大板块,每个大板块下又细分为多个技术板块,比如语音板块包含了语音合成以及语音唤醒等技术板块;计算机视觉技术中的OCR技术,包括传统通用OCR识别,以及垂直领域OCR的识别,可以对30多个OCR识别领域进行精准识别,比如票据识别、证件识别以及文字识别等;在人脸/人体识别板块,同时也会引入图像审核以及图像识别方面的技术;在视频板块,有视频比对技术,视频分类和标注技术,以及视频审核技术;在自然语言处理板块,有机器翻译技术;知识图谱板块,有AR/VR技术。这些板块构成了人工智能体系的技术蓝图。
近两年来,人工智能技术在各行各业中的应用不断加深,实践证明,单一的技术在落地时会受到诸多限制,所以现在人工智能在落地时可能不仅仅用到某一个单独的技术板块,而是需要先把这些板块进行融合,然后再进行实际应用,比如在拍照翻译的应用场景下,既需要用到OCR技术,同时也用到NLP技术。因此在实际应用中,需要综合各个板块的技术,把不同的技术体系和技术内容有机地融合起来,再去解决行业中面临的痛点。
3.3百度AI的场景化应用
2014年到2015年期间,在计算机视觉领域的部分场景下,计算机视觉识别准确率已经超过了人眼识别。而利用深度学习技术的计算机听觉识别,在2017年左右也已经超过人耳听力极限。
人工智能业务场景化不仅依赖底层的硬件资源,也需要超大规模的标注数据,这是监督学习的特点,所以在人工智能早期研究中,有评论说“有多少人工就有多少智能”,这句话在特定角度来看是具有一定意义的。在监督学习中,训练模型需要庞大的标注数据,再结合GPU强大的数据处理能力去训练特定模型,也就是从算法的层面去做更多的工作,在训练模型的过程中需要发挥人的主观能动性,更好的解决在行业应用中出现的一些痛点,构建出行业专属的模型。
比如,将人体分析技术应用到实际行业场景中时,需要结合人脸识别技术和人体识别技术。可以通过基础手势识别,识别一个人在开车时有没有系安全带、是不是在打电话等。
利用人体分析技术,可以做到行为识别,首先设定特定区域,然后对区域内的人员行为进行识别,比如人群过密、区域越界、人员逆行、徘徊以及吸烟等,在特定场景下,行为识别能够帮助用户避免安全隐患。
自然语言处理有很多相关技术,比如说词法分析、词向量表示、语义相似度、短文本相似度、情感相似度分析等。这些技术用在不同的应用场景下。
在公检法系统应用中,为了避免出现非常严重的问题,如同案不同判,具体解决方案是当诉讼呈递给法官时,根据当前诉讼内容在公检法系统中寻找历史上类似的案件,参考历史类似案件的判决,给法官提供判案依据。
在媒体领域应用中,对基础的财经类新闻,可以由机器进行新闻文章的编写,即机器写作。这些技术都是基于NLP在相应领域做的智能化应用,可以让编辑或记者从重复性的工作中解脱出来。
人工智能从广义上来看,也包括大数据及云计算相关技术,这些技术也都涵盖在百度AI技术体系中。在大数据领域,主要包括数据采集、数据存储、数据分析以及数据可视化等,利用这些技术,我们在进行模型训练的时候,对数据进行科学的管理可以帮助我们提高模型训练效率。
百度AI技术体系也提供算力层面的支持,通过GPU服务器以及FPGA服务器提供的算力,更好的解决应用层面的问题。
百度AI就是这样一个从基础层,到感知层、认知层的完整体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。
回顾本篇文章,我们和大家分享了人工智能的相关概念,人工智能的发展历程,从中也可以看出AI是我们的历史机遇。同时本文也为大家详细介绍了百度的AI技术体系,经过10余年的努力,百度AI已经形成从基础层,到感知层、认知层的完整技术体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。