博舍

人工智能7大关键技术,终于有人讲明白了 实现人工智能的关键技术有哪些呢

人工智能7大关键技术,终于有人讲明白了

导读:企业使用AI的一个复杂因素是,这个主题包含了多个不同的底层技术。这些技术中大多数都能够完成很多替代功能。技术和功能的组合非常复杂,表1-1列出了7项关键技术,包括每项技术的简要描述,以及它们可以实现的一些典型功能或应用程序。

▼表1-1人工智能关键技术

本文会更深入地描述这个表中的每种技术及其功能。我还将论述每种技术在商业AI世界有多普遍。我的本职工作是商学院的教授(跟很多不同的公司合作过),但我也是德勤战略和分析实践部门的高级顾问,该部门整合了人工智能方面的咨询工作。

下面是对每一项技术及其功能的深入描述。

作者:托马斯·H.达文波特(ThomasH.Davenport) 

来源:大数据DT(ID:hzdashuju)

01~03统计机器学习、神经网络和深度学习

机器学习是一种自动将模型与数据匹配,并通过训练模型对数据进行“学习”的技术。机器学习是AI最常见的形式之一。

在2017年德勤对250位经理(其所在公司都已经在探索AI)开展的“了解认知”调查中,接受调查的公司58%在其业务中采用了机器学习。它是许多人工智能方法的核心技术并且有很多的版本。公司内部和外部数据(尤其是这些外部数据)的爆炸式增长使它们采用机器学习来全面理解这些数据变得既可行又必要。

神经网络是机器学习的一种更为复杂的形式,该技术出现在20世纪60年代,并用于分类型应用程序,例如确定信贷交易是否为欺诈行为。它根据输入、输出、变量权重或将输入与输出关联的“特征”来分析问题。它类似于神经元处理信号的方式,但把它比作大脑就有些牵强了。

最复杂形式的机器学习将涉及深度学习,或通过很多等级的特征和变量来预测结果的神经网络模型。得益于当前计算机架构更快的处理速度,这类模型有能力应对成千上万个特征。

与早期的统计分析形式不同,深度学习模型中的每个特征通常对于人类观察者而言意义不大。这导致的结果就是该模型的使用难度很大或者难以解释。在德勤的调查中只有34%的人在使用深度学习技术。

深度学习模型使用一种称为反向传播的技术,通过模型进行预测或对输出进行分类。AI技术已推动了该领域的许多最新进展,从在围棋大赛中击败人类专家到对互联网图像进行分类,便是使用反向传播的深度学习。在多伦多大学及谷歌任职的杰弗里·辛顿(GeoffreyHinton)通常被称为深度学习之父,部分原因就在于他在反向传播方面的早期研究。

机器学习采用了上百种可能的算法,其中大多数算法有些深奥。它们的范围从梯度增强(一种构建用于解决先前模型错误的模型的方法,从而增强预测或分类能力)到随机森林(作为决策树模型集合的模型)。

越来越多的软件工具(包括DataRobot、SAS和谷歌的AutoML)支持机器学习模型的自动构建,这些模型可以尝试许多不同的算法来找出最成功的算法。一旦通过训练数据找到了能够进行预测或分类的最佳模型,就可以部署它,并对新的数据进行预测或分类(有时称为评分过程)。

除了所使用的算法外,机器学习的另一个关键是模型如何进行学习。有监督学习模型(到目前为止是业务中最常用的类型)是使用一组对输出做了标记的训练数据进行学习。

例如,一个试图预测银行欺诈行为的机器学习模型需要在一个明确构成欺诈案例的系统上接受训练。这并不容易做到,因为实际欺诈的频率可能只有十万分之一(有时称为不平衡分类问题)。

有监督学习与在评分模型中部署的传统分析方法(如回归分析)非常相似。在回归分析中,目标是创建一个模型,使用一组与输出有关而且其值已知的输入变量来预测一个已知结果。一旦模型开发完成,就可以用它通过相同输入变量的已知值来预测一个未知的结果。

例如,根据患者的年龄、体育活动水平、热量消耗和体重指数,我们可以开发回归模型来预测他患上糖尿病的可能性。

我们针对已确诊患有糖尿病或没患糖尿病的患者建立模型(通常使用所有可用数据来建立回归模型)。一旦找到了合适的预测回归模型,就可以使用它基于一组新的数据来预测未知的结果(输入变量达到特定等级时患者患上糖尿病的可能性)。其后的活动(在回归分析和机器学习中)称为评分。

回归过程与有监督的机器学习相同,除了:

在机器学习中,用于开发(训练)模型的数据称为训练数据,而且它可以是明确出于训练目的而保留的数据子集;

在机器学习中,通常用另一个数据子集来验证训练模型,该子集的预测结果是已知的;

在回归中,可能不需要使用模型来预测未知结果,相反在机器学习中则会对结果做假设;

机器学习中可以使用许多不同的算法类型来代替简单的回归分析。

开发无监督模型通常更难一些,它要从未做标记的数据中检测模式并预测未知的结果。

强化学习是第三种变体,它是指机器学习系统制订了目标而且迈向目标的每一步都会得到某种形式的奖励。它在玩游戏中非常有用,但也需要大量数据(在许多情况下,太多的数据对该方法不起作用)。

需要指出的是,有监督的机器学习模型通常不会持续学习。它们从一组训练数据中学习然后继续使用同一个模型,除非使用新的一组训练数据来训练新的模型。

机器学习模型是以统计为基础的,而且应该将其与常规分析进行对比以明确其价值增量。它们往往比基于人类假设和回归分析的传统“手工”分析模型更准确,但也更复杂和难以解释。相比于传统的统计分析,自动化机器学习模型更容易创建,而且能够揭示更多的数据细节。

考虑到学习所需的数据量,深度学习模型在图像和语音识别等任务上非常出色(远远优于以前针对这些任务的自动化方法,并且在某些领域接近或超过了人类的能力)。

04自然语言处理

自20世纪50年代以来,理解人类语言一直是人工智能研究者的目标。这一领域被称为自然语言处理(NaturalLanguageProcessing,NLP),包括诸如语音识别、文本分析、翻译、生成的应用程序及其他与语言有关的目标。

在“了解认知”的调查中,53%的公司在使用NLP。NLP有两种基本方法:统计NLP和语意NLP。统计NLP是以机器学习为基础,而且其性能提升的表现要快于语意NLP。它需要一个庞大的“语料库”或者语言体系来学习。

例如,在翻译中它需要大量的翻译文本,而通过统计分析可以发现西班牙语和葡萄牙语中的amor在统计上与英语中的love一词高度相关。这虽然有点靠“蛮力”,但通常是相当有效的方法。

语义NLP是近十年来唯一的现实选择,如果能用单词、语法和概念之间的关系有效地对系统进行训练那么它就会相当高效。

语言的训练和知识工程(通常指为特定领域所创建的知识图谱)可能会消耗大量的人力和时间。然而,它需要开发知识主体或者单词与短语之间的关系模型。虽然创建语义NLP模型难度很大,但现在有些智能座席系统已经在使用该方法。

NLP系统的性能应该用两种方法来衡量。一种是看它能够理解百分之多少的口语。随着深度学习技术的发展,该指标不断提高而且往往超过95%。

衡量NLP的另一种方法是看它能回答多少种不同类型的问题或者看它能解决多少种问题。这通常都需要语义NLP,但是由于这方面并没有重大的技术突破,所以问答系统和问题解决系统都要基于特定的上下文而且必须进行训练。

IBM沃森在回答《危险边缘》的问题时表现出色,但是除非进行训练(通常都是以劳动力密集型的方式),否则它回答不了《命运之轮》(WheelofFortune,一档综艺节目)的问题。也许深度学习在未来会应用于问题解答,但现在它还没有。

05基于规则的专家系统

在20世纪80年代,AI的主导技术是基于“if-then”规则集合的专家系统,而且在那个时代开始广泛地应用于商业领域。如今人们往往认为它没有那么先进了,但是2017年德勤“了解认知”的调研显示引入AI的美国公司里有49%使用了该技术。

专家系统要求人类专家和知识工程师在特定知识领域中构建一系列规则。例如,它们通常用于保险承销和银行信贷承销中(但也用于一些深奥的领域,如福爵咖啡的咖啡烘焙或金宝汤罐头的汤汁调制)。

专家系统在一定程度上运行良好,而且容易理解。然而,当规则的数量很大(通常超过几百条),并且规则开始相互冲突时,它们往往会崩溃。而且如果知识领域发生了变化,那么更改规则将会很困难而且也会很耗时。

基于规则的系统自其早期的全盛时期以来并没有太大的改进,但是保险和银行等大量使用它们的行业还是希望能够出现新一代基于规则的技术。研究人员和厂商已经开始讨论“自适应规则引擎”,该引擎将基于新的数据或规则引擎与机器学习的组合来不断修改规则,但它们确实还没有得到广泛应用。

06物理机器人

鉴于全球每年安装的工业机器人超过20万台,物理机器人已经广为人知。在美国“了解认知”调查中,32%的公司在某种程度上使用了物理机器人。它们在工厂和仓库等地执行起重、重新定位、焊接或装配产品等任务。历史上,这些机器人始终在细致的计算机程序控制下去执行特定的任务。

然而,当下的机器人变得越来越能够跟人类协作,而且更加容易训练,只需要根据预定的任务来移动机器人的部件就可以了。随着其他AI能力嵌入它们的“大脑”(实际上是它们的操作系统)中,它们也变得更加智能。随着时间的推移,我们在AI的其他领域中看到的改进很可能会被融入物理机器人中。

07机器人流程自动化

机器人流程自动化(RoboticProcessAutomation,RPA)技术在执行结构化数字任务(即涉及信息系统的任务)时就如同一个人类用户按照一个脚本或者规则在工作。关于RPA是否属于AI/认知技术的集合存在着争论,因为它不是十分智能。但是由于RPA系统非常流行、自动化,且越来越智能化,因此我把它也视为AI世界的一份子。

有人把它们称为“数字劳动力”,而且与其他形式的AI相比,它们价格低廉、易于编程,而且行动透明。如果你会操作鼠标、能理解流程图并能理解一些if-then业务规则,那么你可以理解甚至开发RPA。这些系统也比其他方法(例如,用编程语言开发自己的程序)更容易配置和实施。

RPA并不真正涉及机器人,它只是服务器上的计算机程序。它依赖于工作流、业务规则及信息系统集成的“表示层”的结合体,作为系统的半智能用户进行工作。

有些人将RPA与电子表格中的宏进行了比较,但是我认为这不是一个公平的比较,RPA可以执行更为复杂的任务。还有人将它与业务流程管理(BusinessProcessManagement,BPM)工具进行了比较,后者可能具有一些工作流功能,但通常旨在记录和分析业务流程,而不是实际将其自动化。

一些RPA系统已经具有一定程度的智能。它们可以“观察”人类同事的工作(例如回答常见的客户问题),然后模仿他们的行为。其他一些则把过程自动化与机器视觉相结合。与物理机器人一样,RPA系统正慢慢地变得更加智能化,其他类型的AI技术也被用来指导它们的行为。

我对这些技术分别进行了描述,但是现实中它们越来越多地被组合和集成。然而就目前而言,了解什么样的技术可以完成什么样的任务对一个业务决策者来说是非常重要的。

全球公司(GlobalInc.)首席信息官克里希纳·内森(KrishnaNathan)指出,他在2018年的一个关键优先事项是“帮助我的利益干系人了解人工智能能做什么和不能做什么,以便我们能以正确的方式使用它”。也许在将来,这些技术将混杂在一起,以至于这样的理解将不再必要,甚至不可行。

关于作者:托马斯·H.达文波特(ThomasH.Davenport),美国巴布森学院(BabsonCollege)信息技术与管理专业杰出教授,获哈佛大学哲学博士学位,并先后授课于哈佛商业学院、芝加哥大学和波士顿大学。曾任埃森哲战略变革研究院主任,研究领域广泛,包括信息和知识管理、再造工程以及信息技术在商业中的应用。

本文摘编自《数字时代的企业AI优势:IT巨头的商业实践》,经出版方授权发布。

延伸阅读《数字时代的企业AI优势》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:重点解读了IBM、Amazon、脸书和Google等IT巨头企业如何将AI运用到商业应用中。关注企业如何利用人工智能/认知技术来获得商业利益和竞争优势。

划重点????

干货直达????

数据分析必读干货:简单而实用的3大分析方法

国资委发文!10本书讲透数字化时代新机遇

豆瓣8.5以上!这10本书,值得每个人读一遍

6大准则+10道习题,终于有人把怎样选择图表讲明白了

更多精彩????

在公众号对话框输入以下关键词

查看更多优质内容!

PPT | 读书 | 书单 | 硬核 | 干货 | 讲明白 | 神操作

大数据 | 云计算 | 数据库 | Python | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G | 中台 | 用户画像 | 1024 | 数学 | 算法 | 数字孪生

据统计,99%的大咖都完成了这个神操作

????

实现人工智能的三要素

人工智能,一个熟悉又陌生的名词。对于外行人员来说,人工智能就是所看到的应用产品,比如人脸识别、智能语音、智能机器人等,但是对于业内人员来讲,人工智能的本质是数据、算力、算法这些必须的元素所构成的。数据、算力、算法已经构成了目前实现人工智能的三要素,并且缺一不可。接下来,我们就来逐一分析构成人工智能的这三个要素。

数据——人工智能的粮食

实现人工智能的首要因素是数据,数据是一切智慧物体的学习资源,没有了数据,任何智慧体都很难学习到知识。自从有记录以来,人类社会发展了数千年,在这期间,人类社会不断发展变化,从最早的原始社会到奴隶社会,再到封建社会、资本主义社会、社会主义社会,未来还会发展到共产主义社会,在这漫长的发展过程中,都少不了数据做为人类社会发展的动力。

人类社会之所以发展的越来越高级文明,离不开学习知识,而知识的传播流传越快,则社会发展也越快,在封建社会以前,知识的传播从口口相传到甲骨文,再到竹简记录,就算是封建社会后期的纸质记录,其知识的传播速度也无法和今天的互联网知识的传播速度相提并论。

一般来说,知识的获取来自两种途径,一种是通过他人的经验而获得的知识,也就是他人将知识整理成册,然后供大家学习,这也是目前的主流学习方式;另一种就是通过自己的探索而获得的知识,这种学习方式目前只存在高精尖领域的知识学习,由于在已有的开放社会资源中,找不到可以学习的知识,只有自我探索获取。

无论哪种学习方式,都要通过学习载体来传播知识,无论是面对面讲述,实践操作,还是书本记录,或是电子刊物,亦或者影像资料等,这些都是学习载体,我们都可以称其为数据,学习数据的质量从根本上影响了学习的效果,所以对于人类学习而言,找一个好的老师,有一本好的书籍都是非常重要的学习选择。

既然人类的学习非常依赖于数据的质量,那么AI学习知识的时候,是否也会存在同样的问题呢?答案当然是肯定的,不仅如此,而且AI学习知识的时候对于数据的依赖还要高于人类。人类相比目前的AI而言,是具有推理能力的,在学习某些具有关联性知识的时候,通过推理联想可以获得更多的知识。从另一角度来讲,在某种特定场景下,即使数据不够完整全面,对于人类的学习影响也不会太大,因为人类会利用推理和想象来完成缺失的知识。而目前AI的推理能力还处于初级研究阶段,更多的难题还等着业内技术人员来攻克。

由此可见,目前AI学习知识大部分基本都是依赖于数据的质量的,在这种情况下,连人工智能专家吴恩达都发出人工智能=80%数据+20%算法模型的感慨,可见人工智能的“粮食安全”问题还是非常紧迫的,如果“粮食”出现了质量安全问题,那么最终将会导致人工智能“生病”。可见数据的好坏基本上大概率的决定了智能化的高低,有人会说,我可以通过提高算法模型来提高效果啊,不幸的是,在数据上稍微不注意造成了质量问题,需要在算法上历尽千辛万苦来提高效果,而且还不一定弥补得上,数据对于人工智能最终的发展结构可见一斑。

算力——人工智能的身体

算力是实现人工智能的另一个重要因素,算力在一定程度上体现了人工智能的速度和效率。一般来说算力越大,则实现更高级人工智能的可能性也更大。算力是依附于设备上的,所以一般谈论算力,都是在说具体的设备,比如CPU、GPU、DPU、TPU、NPU、BPU等,都是属于算力设备,只是他们有各自不同的能力而已。具体介绍可以阅读上一篇文章:CPU、GPU、DPU、TPU、NPU...傻傻分不清楚?实力扫盲——安排!一文,介绍相当全面,从APU到ZPU,各种PU全部介绍完了,扫盲是够了。

算力设备除了上面的各种PU之外,每一种设备下面还会分不同的系列,比如英伟达的GPU在PC端有消费级的GeForce系列,专业制图的Quadro 系列、专业计算的Tesla系列等,而GeForce系列细分还可以分为GT、GTX、RTX等,当然每种子系列下还可以继续细分,比如GTX下面有GTX1050、GTX1050Ti......GTX1080、GTX1080Ti,还有GTXTitan等更强大的系列,RTX下面也一样包括了更详细的等级划分,具体选择哪个系列要看具体使用场景而定,当然还和自身的消费实力相关,算力性能越强大也意味着更多的真金白银。

下面是RTX20系列的各种显卡的性能对比:

RTX30系列的各种显卡的对比:

此外,英伟达还有嵌入式端的各种显卡系列,比如适用于自主机器AI平台的JetSon系列、DRIVEAGX系列、ClaraAGX系列等,以及云端的一些计算资源。同样每种系列还是做了进一步的细分,比如Jetson下面就根据其算力核心数就分成了JetsonNano、JetsonTX2、JetsonXavierNX、JetsonAGXXavier等四款设备。

对于厂家而言,产品分的越细,越利于宣传和推广,对于消费者而言,可选择性也大大增加,但是也对消费者的基本知识也有了要求,如果不清楚各种产品的差异,那么就很容易选择错误,而现在的显卡市场就是如此,需要一些专业的知识才能够选对自己所需的显卡类型。希望大家经过科普后都能够选对自己的显卡型号,是打游戏、制图、还是计算,心里要有一个对应的系列型号才行,不然可要陷入选择困难症中了。

以目前人工智能主流技术深度学习为例,它的学习过程就是将需要学习的数据放在在算力设备上运行,经过神经网络亿万次的计算和调整,得到一个最优解的过程。如果把数据当成人工智能的“粮食”,那么算力就是撑起人工智能的“身体”,所有的吃进去的“粮食”都需要“身体”来消化,提取“营养”帮助成长。同样,人工智能的数据也是需要经过算力来逐一运算,从而提取数据的特征来作为智能化程度的标志的。

算法——人工智能的大脑

算法是人工智能程序与非人工智能程序的核心区别,可以这么理解,就算有了数据、有了算力,但是如果没有核心算力,也只能算是一个看起来比较高大上的资源库而已,由于没有算法的设计,相当于把一大堆的资源堆积了起来,而没有有效的应用。而算法就是使得这对资源有效利用的思想和灵魂。

算法和前两者比起来,算法更加的依赖于个人的思想,在同一家公司里,公司可以给每个算法工程师配备同样的数据资料和算力资源,但是无法要求每个算法工程师设计出来的算法程序的一致性。而算法程序的不一致性,也导致了最终智能化的程度千差万别。

相对于数据是依赖于大众的贡献,算力是依赖于机构组织的能力,而算法更加的依赖于个人,虽然很多公司是算法团队,但是真正提出核算算法思想的也就是那么一两个人,毫不夸张的说其他人都是帮助搬砖的,只是这种算法层面的搬砖相对纯软件工程的搬砖,技能要求要更高而已。这点和建筑设计一样,很多著名的建筑设计,其思想都是来自于一个人或者两个人,很少见到一个著名的设计其思想是由七八个人想出来的。

由于算法设计的独特性,和数据与算力相比,在人工智能的三个要素中,算法对人工智能的影响更大,这是因为在平时的工作当中,只要大家花上时间和费用,基本都可以找到好一些的数据和算力设备,但是算法由于其独特性,很多的算法是有专利或者没有向外界开源的,这个时候的差异就要在算法上体现出来了。

现在的大学和培训机构的人工智能专业,其学习方向也主要是以算法为主。因为数据是由大众产生,又由一些互联网大厂存储的,一般个人很少会去做这一块;而算力设备是由芯片公司控制着的;做为独立的个人最能够发挥效力的就在人工智能的算法方向了。培养优秀的算法人才对于人工智能的发展至关重要。目前市场上关于图像视觉、语音信号、自然语言、自动化等方向的算法工程师供不应求,薪资水平也是远超其他互联网软件行业的岗位。

后记:

当前,国内人工智能发展正处于高速成长期,未来将会进入爆发期,无论从业者是处于人工智能的数据处理方向,还是人工智能的算力设备研发方向,或者是人工智能的算法研发方向,都将会迎来巨大的行业红利和丰厚的回报。而人工智能算法方向又是学习回报比最高的一个方向,做为没有背景的个人,是进入人工智能行业的最佳选择。

最后希望想进入人工智能的朋友都能愿望成真,关注微信公众号深度人工智能学院,我们长期致力于人工智能的技术传播和人才发展计划。

关注微信公众号:深度人工智能学院,获取更多人工智能方面的知识!

        

        官方公众号                          官方微信号

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇