人工智能发展现状及应用
导读:人工智能(ArtificialIntelligence),英文缩写为AI。人工智能被认为是第四次科技革命的核心驱动力,目前许多领域都在探索AI技术的应用,可谓方兴未艾。那么什么是人工智能,它经历了怎样的发展历程,现阶段发展状况如何,它有哪些应用。本篇文章就为大家做个简单分享。同时也会为大家详细介绍一下百度的AI技术体系。
本文主要内容:
1.人工智能概念
①智能
②人工智能
2.人工智能的发展
①人工智能的发展历程
②AI是中国的机遇
3.AI与百度
①百度AI的发展历程
②百度AI的技术体系
③百度AI的场景化应用
1.人工智能概念
1.1智能
谈到人工智能,需要首先理解“智能”一词的具体含义。智能是指人类才具有的一些技能。人在进行各种活动的过程中,从感觉到记忆再到思维产生了智慧,智慧产生了人类本身的行为和语言,行为和语言统称为能力;智慧和能力结合在一起就是人工智能中的智能一词。
比如,人类的语言表达能力就是一种智能(语言智能);人类进行复杂数学运算的能力也是一种智能(数字逻辑智能);人类的交往能力也是一种智能(人际智能),人们对音调、旋律、节奏、音色的感知能力,也是一种智能(音乐智能)。他们都属于智能的范畴。
1.2人工智能
把智能的概念与人的逻辑理解相结合,并应用到机器中,让机器能更好的模拟人的相关职能,这就是人工智能。人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。
人工智能概念,最早可以追溯到上世纪90年代初,这个时候需要提到一位科学家:图灵。
艾伦·麦席森·图灵(英语:AlanMathisonTuring,1912年6月23日—1954年6月7日),英国数学家、逻辑学家,被称为计算机科学之父,人工智能之父。
图灵最早定义了什么是人工智能,怎样去界定一个机器(或一个设备)是否具备智能。他最早提出了图灵测试(即:一个人在不接触对方的情况下,经过某种特殊的方式和对方进行一系列的问答,如果在某些时间之内,他无法根据这些问题判断对方是人还是计算机,那么我们就认为这台机器具备智能化的思维)。直到2000年左右,才真正有计算机通过了图灵测试,才实现了一个突破。在2014年图灵测试大会上,出现了一个通过图灵测试的机器(或者称为智能聊天的机器人)。这两年人工智能的高速发展,也印证了最早的图灵测试,这也让我们反向看到了图灵在人工智能定义方面做出的突出贡献。
现今,在做图灵测试时,判断这个设备是否具备人工智能,更多的还是从模拟人的角度来考量。但在当前科技背景下,人工智能需要涵盖更广的内容,它不仅仅要模拟人本身的职能,还需要具备一些扩展、替代甚至延伸的职能。
举个例子,在医疗领域,需要经常在实验室进行病毒化验,人处这样的实验环境下会比较危险,经常会出现一些事故,如果能够用机器替代人来做这些实验,这些事故就可以避免。此时,这台机器就不仅仅是在模拟人,而是在替代人,机器本身就具备了替代人的能力。
当前,很多人在担忧:人工智能的发展会不会对人类造成威胁。其实,目前人工智能还处于早期的阶段(或者称之为婴幼儿阶段),我们还处于弱人工智能时代。
当然,随着时间的推移,将来我们可能会把弱人工智能时代推进到强人工智能,甚至再往前推进到超人工智能和智能爆炸时代。但至少目前,我们离这样的时代还有非常远的距离,要实现这样的目标,需要非常多的时间积累,可能要通过几代人甚至十几代人的努力。所以大家不要有过多的担心,人工智能现在更多的还是用于服务人类,用来提高人们的工作效率。
上图引自MIT大学一位教授。
针对人工智能所覆盖的领域,这位教授提出一个观点:“我们要尽可能避免做这些容易“进水”的工作,以免被日后所淘汰掉”。
这张图水平面以下的工作,如存储,计算、甚至象棋活动等,已经被海平面淹没。在海平面边缘的工作,如翻译、驾驶、视觉和音频等,很有可能在未来的一段时间,随着技术的进步也会被淹没。再来看图上高海拔地区的工作,如艺术创新、科学研究,文学创作等,让人工智能替代人类去做这些工作,在现阶段是比较困难的。要让人工智能实现像人一样具备主观能动性,还需要比较长的时间。我们在选择工作,或者在做技术探索的时候,应该从更高的层面布局,而把那些可以被人工智能替代的工作交给计算机去做,这样我们就可以从一些重复性、冗余性的工作中抽离出来,去专门从事创造性的工作(比如艺术创作等)。
2.人工智能的发展2.1人工智能的发展历程我们回顾一下人工智能发展的历程。
人工智能并不是特别新鲜的词,在计算机出现后不久,大家就已经开始探索人工智能的发展了。
1943到1956年这段时间,为人工智能的诞生期,期间有很多人尝试用计算机进行智能化的应用,当然此时不能称为人工智能,只是有类似的概念。
人工智能的分水岭是1956年达特茅斯会议,在本次会议上正式提出了AI这个词。
1956到1974年这段时间,是人工智能发展的黄金时代,是人工智能的第1个高速发展期,通常把这段时间称之为人工智能大发现时代。
1974到1980年这6年的时间里,进入了人工智能发展的第1个低谷,在这个低谷期,出现了非常多的问题,比如计算上的问题、存储上的问题、数据量的问题,这些问题限制了人工智能的发展。
1980到1987年这段时间是人工智能的第2个繁荣期。期间诞生了大量的算法,推动了神经网络的高速发展,同时出现了许多专业的科研人员,发表了许多创造性的论文。
1987到1993年这段时间是人工智能的第2个低谷期,期间有个词叫“AI之冬”。有大量的资本从AI领域撤出,整个AI科研遇到了非常大的财政问题,这是导致”AI之冬”的主要原因。
1993年之后,人工智能又进入到高速发展期,期间出现了许多经典案例,比如1997年IBM公司的深蓝案例,2001年IBM的沃森案例,2016年谷歌AlphaGo案例。这些案例是人工智能在应用层面的体现。
上图概括了人工智能的发展历程。
可以看到,从1956年达特茅斯会议AI这个词诞生,一直发展到现在,人工智能共经历了60多年的跌宕起伏,并不是仅在2016、2017这两年间才出现了人工智能这个概念。
从宏观上看,AI的发展历程经历了三次比较大的起伏。
第1次起伏是从1943年到1956年,首次出现了神经网络这个词,把人工智能推到一个高峰,期间出现了许多大发现。而第1次低谷使人工智能进入到了反思的阶段,人们开始探讨人工智能的应用。
第2次起伏是在上世纪80年代,期间BP算法的出现,神经网络新概念的普及,推动了人工智能又进入第2次高峰和发展。然而从1987年到1993年又进入到了了第2次低谷,这主要因为一些财政原因导致。
第3次起伏从2006年开始,由辛顿提出了深度学习的概念,把神经网络往前推动了一大步,也把人工智能推到了高速发展阶段,尤其是近几年在非结构化领域取得了许多突破(例如在语音与视觉方面),给人工智能进入商业化应用带来许多的基础性技术沉淀。
人工智能为什么会在前面的发展过程里遇到了那么多的坎坷?为什么在最近这几年会进入一个高速发展期?
我们归结了近几年人工智能高速发展的三点原因:
①算力飞跃
人工智能(尤其是深度学习),对底层计算能力的要求非常高。早期的计算受到了极大限制,从CPU发展到了GPU,使得算力几乎能达到几倍甚至十几倍量级的增长。再从GPU到TPU,计算速度能达到15~30倍的增长,使得在算力层面不断取得突破。此外,大量云资源的出现将我们计算的成本压到了最低,我们在处理海量计算的同时,也可以享受比较低的成本。再者,芯片技术的发展,使得端处理能力持续提高,这些都帮助我们在算力层面取得了很大的突破。
②数据井喷
从PC互联网时代到移动互联网时代,再到可穿戴设备的应用,都产生了大量的数据。这两年,每年产生的数据量可以达到50%左右的增长。2017年到2018年,这段时间内基本上每个月产生的数据量可以达到几十个亿的量级,数据量已经非常高。物联网的连接,能帮助我们把更多的数据采集回来,帮助我们在数据层面做更多的积累,这是数据井喷带来的积极影响。
③算法突破
近几年来,从机器学习到深度学习,算法不断取得突破。使得我们可以处理更多的大规模、无监督、多层次等复杂业务。
算法、算力、数据是人工智能的三要素,算力是骨骼,数据是血液和食物,算法就是大脑,三者不断取得突破,才能促进人工智能高速发展。
2.3AI是中国的机遇
人工智能技术的发展也促进了很多产业的发展。中国目前有非常好的历史机遇,不仅仅是在技术上有大量的积累,同时,国家也为人工智能的发展提供了非常好的政策环境。此外,市场空间、资金支持、人才储备,也都为人工智能的发展提供了非常好的条件。
通过上图可以看到,人工智能的研发人才目前还比较短缺。图上数据来源于领英在2017年所做的全球AI人才报告。以2017年的数据来看,全球人工智能专业的人才数量超过190万,在这190万人才中,美国处于第一梯队,有85万+;而中国在人工智能领域的人才积累比较少,从数据上来看,目前国内人工智能方面的专业技术人才可能只有5万+,当然这是2017年的数据,现在可能会有一些增长,但是量级也没有达到我们想象的那么大。
所以从国内目前来看,这约5-10万的AI技术人才,对比AI产业的高速发展需求,两者之间有巨大矛盾。那怎样更好的用这些人才作为突破,把人工智能方面的技术人才储备提高到百万级别。这正是整个百度(包括百度的教育合作与共建,包括百度所有对外输出的体系,包括我们今天所做的课程)所努力的方向,我们期望通过百度的技术赋能,真正的帮助人工智能取得更好的人才积累,真正培养一些在未来对人工智能行业有巨大贡献的专业人才,这是百度现在的定位目标。
AI浪潮已然到来,行业人工智能时代已经到来。目前,人工智能已经大量应用在2c和2b领域,怎么让人工智能跟具体行业有更好的接触,产生更多的积累,是我们正在重点探索的方向。
比如百度的搜索引擎,已经融入了很多AI元素。模糊匹配、拍照识图、深度挖掘检索等都应用到了大量的人工智能技术。
再如推荐系统,他会基于个人的一些喜好和历史阅读习惯来给用户做一些内容的推荐和匹配,这是很典型的结合大数据做的精准应用,实际上也属于人工智能的范畴。
再如人脸识别技术、语音技术、智慧交通和无人驾驶等,都是AI技术与行业应用的融合,并且这些技术正在不断取得突破。百度现在L4级别的无人驾驶车已经初步实现了一些小规模的量产,未来会有更多的人将真正的体会到无人驾驶给生活带来的便利。
3.AI与百度3.1百度AI的发展历程
上图为百度在人工智能领域的发展轨迹,早在2009年,百度就开始尝试探索人工智能相关技术,直到2019年,百度用了近十年的时间布局人工智能。
2009年尝试性布局人工智能,2013年发布IDL,2014年成立硅谷实验室以及百度研究院,2015年首次发布DuerOS,2016年发布百度大脑1.0版本,同年,百度的自动驾驶技术进入试运营状态,2017年是百度人工智能技术高速发展的一年,不仅成立了深度学习国家实验室,同时也成立了硅谷第二实验室以及西雅图实验室,并且Apollo平台开始运行并对外推广,在2018年到2019年,DuerOS和Apollo平台发展到3.0版本,百度大脑发展到5.0版本。经过近十年的发展和积累,百度的人工智能技术目前处于相对领先的位置。
百度在人工智能领域领域取得的进展有目共睹,比如,百度成立了首个国家级AI实验室;2016年被美国《财富》杂志评选为深度学习领域四大巨头之一;百度的刷脸支付、强化学习、自动驾驶等技术入选MIT2017年全球十大突破性技术;在AI领域,百度的中国专利申请超过2000项。
3.2百度AI的技术体系
百度的技术体系非常全面,覆盖了计算体系、大数据技术体系以及人工智能技术体系等,在机器学习、深度学习、区块链、知识图谱、自然语言处理、量子计算等领域均有雄厚的技术积累。这些技术可以按内容划分成三个板块,第一是A板块(即AI技术板块),第二是B板块(即大数据板块),第三是C板块(即云计算板块)。这就是百度在2016年提出的ABC概念。从一开始的1.0版本,发展到如今的3.0版本,代表着百度在人工智能领域的整体布局。在人工智能领域的布局中,百度的探索不仅停留在最核心的技术上,也同时将核心技术与更多的领域相结合,如边缘计算、物联网(InternetofThings,IoT)和区块链等,得到了如ABC+区块链、ABC+DuerOS、ABC+Apollo等对外输出模式,向各行各业提供解决方案。
在A板块中,将百度大脑分成了不同的层次。最底层是算法层,包含机器学习和深度学习算法,使用百度的PaddlePaddle深度学习框架提供算法层的基础支撑;算法层之上为感知层,感知层可分为对声音的感知和对光的感知,其中,对声音的感知主要是语音技术板块,对光的感知主要是图像技术、视频技术、AR/VR等技术板块;在感知层之上是认知层,认知层更多的是处理人类听到和看到的内容,对其进行深度理解,深度理解需要自然语言处理(NLP/NLU)、知识图谱等技术作为支撑,同时也需要积累大量用户画像数据,这些技术能帮助人们快速的理解和分析人类听到和看到的内容,并对内容进行有效的反馈,这是认知层面的技术;在认知层之上是平台层,平台层将底层的内容进行融合、封装,对外提供开放、完整的AI技术,并引入大量的生态合作伙伴,共同探讨人工智能产业的布局。
百度人工智能整体技术体系,最底层是深度学习框架飞桨PaddlePaddle,作为底层计算框架,飞桨PaddlePaddle支撑着上层场景化能力与平台中的全部板块。在场景化能力与平台中,包含了诸多场景大板块,每个大板块下又细分为多个技术板块,比如语音板块包含了语音合成以及语音唤醒等技术板块;计算机视觉技术中的OCR技术,包括传统通用OCR识别,以及垂直领域OCR的识别,可以对30多个OCR识别领域进行精准识别,比如票据识别、证件识别以及文字识别等;在人脸/人体识别板块,同时也会引入图像审核以及图像识别方面的技术;在视频板块,有视频比对技术,视频分类和标注技术,以及视频审核技术;在自然语言处理板块,有机器翻译技术;知识图谱板块,有AR/VR技术。这些板块构成了人工智能体系的技术蓝图。
近两年来,人工智能技术在各行各业中的应用不断加深,实践证明,单一的技术在落地时会受到诸多限制,所以现在人工智能在落地时可能不仅仅用到某一个单独的技术板块,而是需要先把这些板块进行融合,然后再进行实际应用,比如在拍照翻译的应用场景下,既需要用到OCR技术,同时也用到NLP技术。因此在实际应用中,需要综合各个板块的技术,把不同的技术体系和技术内容有机地融合起来,再去解决行业中面临的痛点。
3.3百度AI的场景化应用
2014年到2015年期间,在计算机视觉领域的部分场景下,计算机视觉识别准确率已经超过了人眼识别。而利用深度学习技术的计算机听觉识别,在2017年左右也已经超过人耳听力极限。
人工智能业务场景化不仅依赖底层的硬件资源,也需要超大规模的标注数据,这是监督学习的特点,所以在人工智能早期研究中,有评论说“有多少人工就有多少智能”,这句话在特定角度来看是具有一定意义的。在监督学习中,训练模型需要庞大的标注数据,再结合GPU强大的数据处理能力去训练特定模型,也就是从算法的层面去做更多的工作,在训练模型的过程中需要发挥人的主观能动性,更好的解决在行业应用中出现的一些痛点,构建出行业专属的模型。
比如,将人体分析技术应用到实际行业场景中时,需要结合人脸识别技术和人体识别技术。可以通过基础手势识别,识别一个人在开车时有没有系安全带、是不是在打电话等。
利用人体分析技术,可以做到行为识别,首先设定特定区域,然后对区域内的人员行为进行识别,比如人群过密、区域越界、人员逆行、徘徊以及吸烟等,在特定场景下,行为识别能够帮助用户避免安全隐患。
自然语言处理有很多相关技术,比如说词法分析、词向量表示、语义相似度、短文本相似度、情感相似度分析等。这些技术用在不同的应用场景下。
在公检法系统应用中,为了避免出现非常严重的问题,如同案不同判,具体解决方案是当诉讼呈递给法官时,根据当前诉讼内容在公检法系统中寻找历史上类似的案件,参考历史类似案件的判决,给法官提供判案依据。
在媒体领域应用中,对基础的财经类新闻,可以由机器进行新闻文章的编写,即机器写作。这些技术都是基于NLP在相应领域做的智能化应用,可以让编辑或记者从重复性的工作中解脱出来。
人工智能从广义上来看,也包括大数据及云计算相关技术,这些技术也都涵盖在百度AI技术体系中。在大数据领域,主要包括数据采集、数据存储、数据分析以及数据可视化等,利用这些技术,我们在进行模型训练的时候,对数据进行科学的管理可以帮助我们提高模型训练效率。
百度AI技术体系也提供算力层面的支持,通过GPU服务器以及FPGA服务器提供的算力,更好的解决应用层面的问题。
百度AI就是这样一个从基础层,到感知层、认知层的完整体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。
回顾本篇文章,我们和大家分享了人工智能的相关概念,人工智能的发展历程,从中也可以看出AI是我们的历史机遇。同时本文也为大家详细介绍了百度的AI技术体系,经过10余年的努力,百度AI已经形成从基础层,到感知层、认知层的完整技术体系,为多行业、多场景提供“一站式解决方案”,力求实现“多行业、多场景全面赋能”。
人工智能在无人驾驶中的应用
引用自:人工智能在自动驾驶领域的应用及启示吴琦,于海靖,谢勇,刘贝
1引言 人们越来越期望通过无人系统代替人类进行一些活动。小到帮助人们自动清扫地面的扫地机器人,大到协助有人机进行战场态势感知协同作战的无人机,无人系统已经渗透到人类活动的方方面面。无人车作为其中之一,其市场需求非常广泛,从战场作战、港口货运到乘用车驾驶林林总总。近年来随着需求的推动,自动驾驶汽车领域取得很多技术突破,同时吸引更多投资以及科技力量的投入其中,使其成为一个朝气蓬勃的新兴技术领域[1-3]。
自动驾驶是通过自动驾驶系统,部分或完全的代替人类驾驶员,安全地驾驶汽车。汽车自动驾驶系统是一个涵盖了多个功能模块和多种技术的复杂软硬件结合的系统。在机器学习、大数据和人工智能技术大规模崛起之前,自动驾驶系统和其他的机器人系统类似,整体解决方案基本依赖于传统的优化技术。随着人工智能和机器学习在计算机视觉、自然语言处理以及智能决策领域获得重大突破,学术和工业界也逐步开始在无人车系统的各个模块中进行基于人工智能和机器学习的探索[4-6],目前已取得部分成果。而自动驾驶系统作为代替人类驾驶的解决方案,其设计思路和解决方法背后都蕴含了很多对人类驾驶习惯和行为的理解。现在,自动驾驶已经成为人工智能最具前景的应用之一。
2自动驾驶硬件系统架构 自动驾驶系统一般是在传统汽车上进行加装来构建整个系统。下面引用通用汽车公司的Cruise自动驾驶汽车的硬件系统架构[7](图1)进行介绍,其他公司方案类似[8-9]。从图1中可以清晰地看出,自动驾驶硬件系统主要包含五部分:感知模块、自动驾驶计算机、供电模块、信号通信模块、执行和制动模块。
2.1感知模块 无人车的感知模块非常完备,是传统车辆所没有的。这部分主要代替有人驾驶汽车的驾驶员的眼睛和“车感”。通常由摄像头、激光雷达、毫米波雷达和GNSS/IMU组成。
摄像头主要用于获取图像信息,用于识别行人、车、树、红绿灯、信号牌,进行定位等。
激光雷达用于获取激光扫描反射数据,用于识别行人、车、树等障碍物,进行定位等。其三维测距原理是通过测量激光信号的时间差、相位差确定距离,通过水平旋转扫描测角度,并根据这两个数据建立二维的极坐标系,再通过获取不同俯仰角度的信号获得第三维的高度信息。图2为激光获取的数据信息经过识别分类标注不同颜色处理后得到的图。
毫米波雷达获取反射数据,主要用于识别障碍物,测距,在传统汽车上安装用于辅助避障。GNSS/IMU组合用于实时获取全局位置信息。在感知模块中,最重要的当属激光雷达,因为它精度高,可靠性高,满足了自动驾驶高精度定位、识别等功能,可以说直接加速了自动驾驶技术的工程应用。
2.2自动驾驶计算机 自动驾驶计算机顾名思义是进行自动驾驶相关的计算处理,一般主要包含五部分:CPU、GPU、超大内存、超大硬盘存储空间和丰富的硬件接口。
其中,CPU根据其性能特点用于处理含有逻辑判断、流程等控制、规划功能软件;GPU根据其性能特点用于获取传感器数据,进行大量同类型数据计算,例如识别、分类处理,执行感知、定位功能软件;超大内存用于大量数据处理、加载高精度地图;超大硬盘存储空间用于存储高精度地图;丰富的硬件接口,例如串口、CAN、以太网、USB等,用于多种传感器连接。
2.3执行与制动模块 执行与制动系统也在随着自动驾驶技术向前发展。执行系统接收自动驾驶控制模块操作车辆的执行指令,控制车辆动力(油门和档位)、底盘(转向和制动)和电子电器等系统的执行,实现自动驾驶的速度和方向控制。而传统的汽车底盘制动系统是液压、气压制动,为了实现车身结构的稳定并将智能驾驶功能延伸,线控制动将是汽车制动技术的长期发展趋势,线控制动可以深度融合智能驾驶功能模块。这类似于航空领域飞行操纵系统由液压逐步转换为电传操纵系统的过程。
3自动驾驶软件系统架构 如果说自动驾驶硬件系统是在传统车辆上进行了加装升级,那么软件系统可谓是全新的。自动驾驶软件按功能主要分四个模块:定位、感知、规划、控制。其中定位模块被普遍认为是基础,各模块包含内容见图3。
其中,定位解算离不开高精度地图的辅助,基于定位信息可以开展环境感知、路径规划驾驶行为决策以及汽车运动控制等内容,而路径规划、行为决策以及运动控制又是三个逐渐具体化、底层化的问题,前一个输出可以作为后一个的输入条件来使用。也就是说控制模块可以将决策规划的动作作为输入,计算应该执行的转弯角和油门。
4定位与感知4.1定位 为满足汽车驾驶需求,目前自动驾驶定位精度需求为10cm左右,如此高精度的定位系统采用的定位方案一般是多传感器以及高精度地图融合的方式,具体为GNSS、IMU、激光雷达、相机、高精度地图融合。其中卫星导航系统(GlobalNavigationSatelliteSystem,GNSS)主要提供粗略的绝对位置(经纬度),然后根据采集自身所在环境的激光雷达数据和相机数据与高精度地图匹配得到更精确的定位。IMU(InertialMeasurementUnit)惯性器件提供状态估计算法中状态方程(预测)中的加速度、角速度。
百度无人车团队[10]采用的定位方案框图见图4。这是目前比较常见且有效的定位算法架构。定位算法的精妙之处在于,一些微小的处理与改变也能引起较大的精度差距。所以,不断有学者在定位算法上深耕突破。
4.2高精度地图 在定位方案中,高精度地图起了举足轻重的作用[11]。高精度地图(HDMap)是通过高精度激光雷达、相机、GNSS等传感器获取道路信息数据。传感器数量越多、信息覆盖越全面、精度越高,高精度地图就越精确。在自动驾驶使用时,可将其表示为计算机语言的形式存储在自动驾驶计算机的硬盘当中。驾驶过程中通过实时与高精度地图比对来获得高精度定位。
高精度地图需事先建立,一辆建立高精度地图外业车造价高达800万人民币,多数开销在传感器系统上。由于采集的数据庞大,必须通过人工智能算法进行数据处理。高精度地图主要包含:车道经纬度、车道宽、曲率、高程;车道交叉口位置、宽度、曲率、道口数;标牌位置以及含义;信号灯位置等。高精度地图的建立过程中存在大量的分类问题,计算机视觉领域采用卷积神经网络(ConvolutionNeuralNetwork,CNN)使问题得到很好的解决。
卷积神经网络由一个或多个卷积层和全连接层(对应经典的神经网络,可有可无)组成,卷积层执行的计算包含卷积操作和池化操作。卷积计算是通过不同窗口数据和滤波矩阵(一组固定的权重)做内积(逐个元素相乘再求和)的操作得到卷积后的数据;池化计算将数据分块,每块找最大或求平均作为数据块的代表值。具体操作示意图见图6。
卷积神经网络算法还有一个特点是权值共享,对于一幅图片上每个点,在某一层的卷积操作权值是相同的,卷积神经网络训练的参数转化为训练滤波矩阵(卷积核),参数大大减少。卷积神经网络就是通过多个卷积层得到不同方向上的几何信息特征,通过提取这些特征,得到输入数据的相关性,通过考虑这些相关性减少训练复杂度,该方法在图像和语音处理上具有很好的应用。
4.3感知在线进行环境感知的方法类似高精度地图的构建过程,对采集的数据进行在线实时识别、分类,区别在于输入数据是动态的,具有新的挑战。
5规划与控制5.1规划规划问题是根据感知的动态环境与对运动体的预测情况进行运动序列决策[12]。这个决策问题在复杂环境下非常复杂,可以设想通过一个极其复杂的路口对规划问题的考验,是体现自动驾驶智能程度的关键问题。传统A*、Dijkstra等路径规划算法可实现车辆保守的驾驶,但复杂动态环境不适用,时间复杂度高,而强化学习是解决序列决策问题的好方法,目前在解决自动驾驶规划问题上有很好的仿真验证。
强化学习是与监督学习、无监督学习平级的机器学习的一个分支,来源于动物学习心理学,最早可追溯到巴普洛夫的条件反射试验,通过反馈获得成效的评价来不断提高学习效果。
强化学习问题的基本结构是交互[13],一个智能体处于一个环境中,在每一个时间,智能体做出一个动作(a),然后从环境中获得观测量(状态量s)以及回报(收益r),强化学习的学习目标是:如何在未知环境中采取一系列行为,来最大化智能体收到的(总)累积回报(收益)。这个交互过程在一个时间段内状态、动作、回报的迭代关系如图7所示。强化学习具有以下特点:本质上是闭环系统,输入和输出相互依赖;反馈是延时的,不是即时的,一个动作的影响可能几步之后才会体现;没有直接的指导告诉该怎么做,只有回报函数;时间很关键,观测量、回报等是关于时间的序列,不满足独立同分布假设;智能体的动作直接影响到它之后收到的数据。
基于以上特点,假设环境状态的集合是S,动作集合是A,强化学习有四个要素:
策略(π):从环境状态到动作的映射学习,这个映射叫做策略,记为π:S→A。回报(R):*由状态和动作产生的影响的量化表示,记作R:S×A→R。价值函数:由未来h步回报组成,最大化价值函数的策略π成为强化学习目标。模型:模型已知(白箱):系统转移到下一步状态S’的概率G已知,动作a产生的回报r已知;模型未知(黑箱):系统转移到下一步状态S’的概率P未知,动作a产生的回报r未知,大部分场景模型都是未知的。强化学习理论比较深奥,入门门槛较高。强化学习解决问题实施方法是离线训练学习(试错)+在线推断决策。由于神经网络擅长人类很容易完成但是很难去给出规范(解析)的描述,所以在机器学习领域广泛使用,将学习到的策略用神经网络作为函数近似器(神经网络可以认为是一种非线性拟合)的强化学习方法,称为深度强化学习[14-15]。深度强化学习被认为是走向通用人工智能的必经之路[16]。目前,采用深度强化学习解决自动驾驶的路径规划问题的理论研究和仿真试验表明其卓有成效[17]。
5.2控制 控制的任务是消化上层动作规划模块的输出轨迹点,通过一系列动力学计算转换成对车辆油门、刹车以及方向盘控制信号,从而尽可能地控制车去实际执行这些轨迹点。该问题一般转化为找到满足车辆动态姿态限制的方向盘转角控制(车辆横向控制),和行驶速度控制(车辆纵向控制)。对这些状态量的控制可以使用经典的PID控制算法,但其对模型依赖性较强,误差较大。智能控制算法,如模糊控制、神经网络控制等,在无人车控制中也得到广泛研究和应用。其中,神经网络控制利用神经网络,把控制问题看成模式识别问题,被识别的模式映射成“行为”信号的“变化”信号。甚至可以用驾驶员操纵过程的数据训练控制器获取控制算法。
参考文献[1]陈晓博.发展自动驾驶汽车的挑战和前景展望[J].综合运输,2016(11):9-13.[2]余阿东,陈睿炜.汽车自动驾驶技术研究[J].汽车实用技术,2017(2):124-125.[3]朱敏慧.逐步实现自动驾驶5个层级[J].汽车与配件,2016(11):4.[4]高洪波,张新钰,张天雷,等.基于云模型的智能驾驶车辆变粒度测评研究[J].电子学报,2016,44(2):365-373.[5]郭旭.人工智能视角下的无人驾驶技术分析与展望[J].电子世界,2017(20):64-65.[6]王科俊,赵彦东,邢向磊.深度学习在无人驾驶汽车领域应用的研究进展[J].智能系统学报,2018,13(1):55-69.[7]2018Self-drivingsafetyreport[R].GeneralMotorsCooperation,February2018.[8]Ontheroadtofullyself-driving-modelingthefuturechallenge[R].WaymoSafetyReport,October2017.[9]Apollopilotsafetyreport2018[R].July,2018.[10]WanG,YangX,CaiR,etal.Robustandprecisevehiclelocalizationbasedonmulti-sensorfusionindiversecityscenes[C].2018IEEEInternationalConferenceonRoboticsandAutomation(ICRA),Brisbane,QLD,2018.[11]SeifHG,胡晓龙.智能城市中自动驾驶汽车工业的关键挑战:高清地图[J].Engineering,2016(02):27-35.[12]薛建儒,李庚欣.无人车的场景理解与自主运动[J].无人系统技术,2018,1(2):24-33.[13]LillicrapTP,HuntJJ,PritzelA,etal.Continuouscontrolwithdeepreinforcementlearning[J].ComputerScience,2015,8(6):A187.[14]VanHH,GuezA,SilverD.Deepreinforcementlearningwithdoubleq-learning[J].ComputerScience,2015.[15]刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报,2018,41(1):1-27.[16]赵冬斌,邵坤,朱圆恒,等.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717.[17]ScottP,HansA,XinxinD,etal.Perception,planning,control,andcoordinationforautonomousvehicles[J].Machines,2017,5(1).
人工智能技术包含七个关键技术
三、自然语言处理
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、机器阅读理解和问答系统等。
机器翻译机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性,翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的成功应用已经显现出了巨大的潜力。随着上下文的语境表征和知识逻辑推理能力的发展,自然语言知识图谱不断扩充,机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。
语义理解语义理解技术是指利用计算机技术实现对文本篇章的理解,并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。随着MCTest数据集的发布,语义理解受到更多关注,取得了快速发展,相关数据集和对应的神经网络模型层出不穷。语义理解技术将在智能客服、产品自动问答等相关领域发挥重要作用,进一步提高问答与对话系统的精度。
问答系统问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题,系统会返回关联性较高的答案。尽管问答系统目前已经有了不少应用产品出现,但大多是在实际信息服务系统和智能手机助手等领域中的应用,在问答系统鲁棒性方面仍然存在着问题和挑战。
自然语言处理面临四大挑战:
一是在词法、句法、语义、语用和语音等不同层面存在不确定性;
二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;
三是数据资源的不充分使其难以覆盖复杂的语言现象;
四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算
四、人机交互
人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人的两部分信息交换,是人工智能领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,主要包括键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑机交互等技术。
五、计算机视觉
计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。自动驾驶、机器人、智能医疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近来随着深度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能算法技术。根据解决的问题,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。
目前,计算机视觉技术发展迅速,已具备初步的产业规模。未来计算机视觉技术的发展主要面临以下挑战:
一是如何在不同的应用领域和其他技术更好的结合,计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并且可以超过人类,而在某些问题上却无法达到很高的精度;
二是如何降低计算机视觉算法的开发时间和人力成本,目前计算机视觉算法需要大量的数据与人工标注,需要较长的研发周期以达到应用领域所要求的精度与耗时;
三是如何加快新型算法的设计开发,随着新的成像硬件与人工智能芯片的出现,针对不同芯片与数据采集设备的计算机视觉算法的设计与开发也是挑战之一。
六、生物特征识别
生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人脸等光学信息、麦克风对说话声等声学信息进行采集,利用数据预处理以及特征提取技术对采集的数据进行处理,得到相应的特征进行存储。
识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取,然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物特征识别一般分为辨认与确认两种任务,辨认是指从存储库中确定待识别人身份的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进行比对,确定身份的过程,是一对一的问题。
生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术,在金融、公共安全、教育、交通等领域得到广泛的应用。
七、VR/AR
虚拟现实(VR)/增强现实(AR)是以计算机为核心的新型视听技术。结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影响,获得近似真实环境的感受和体验,通过显示设备、跟踪定位设备、触力觉交互设备、数据获取设备、专用芯片等实现。
虚拟现实/增强现实从技术特征角度,按照不同处理阶段,可以分为获取与建模技术、分析与利用技术、交换与分发技术、展示与交互技术以及技术标准与评价体系五个方面。获取与建模技术研究如何把物理世界或者人类的创意进行数字化和模型化,难点是三维物理世界的数字化和模型化技术;分析与利用技术重点研究对数字内容进行分析、理解、搜索和知识化方法,其难点是在于内容的语义表示和分析;交换与分发技术主要强调各种网络环境下大规模的数字化内容流通、转换、集成和面向不同终端用户的个性化服务等,其核心是开放的内容交换和版权管理技术;展示与交换技术重点研究符合人类习惯数字内容的各种显示技术及交互方法,以期提高人对复杂信息的认知能力,其难点在于建立自然和谐的人机交互环境;标准与评价体系重点研究虚拟现实/增强现实基础资源、内容编目、信源编码等的规范标准以及相应的评估技术。
来源:今日头条返回搜狐,查看更多