博舍

厘清人工智能算法的概念,解析算法的特征 人工智能算法的意义和作用

厘清人工智能算法的概念,解析算法的特征

原文链接:https://mbd.baidu.com/newspage/data/landingsuper?

前言

近年来,随着计算机处理能力的大幅度提高和数以亿计海量数据的累积,人工智能在经历了两次热潮与寒冬后,又重新回归到我们的视野,人类进入了第三次人工智能热潮阶段。2016年3月,AlphaGo以总比分4比1战胜李世石,被普遍认为是本次人工智能热潮的里程碑事件。

AlphaGo取胜的关键在于人工智能算法的运用。2012年10月,在代表计算机智能图像识别最前沿的ImageNet竞赛中,人工智能算法在识别准确率上突飞猛进,甚至超过了普通人类的肉眼识别准确率,由此开始迎来人工智能算法的爆发时期。人工智能算法迅速在语音识别、数据挖掘、自然语音处理等不同领域攻城略地,其被推向了各个主流应用领域,比如交通运输、银行、保险、医疗、教育和法律等,快速实现人工智能技术与产业链条的有机结合。

算法并非新近岀现,早在公元825年,来自阿拉伯的数学家阿科瓦里茨米(Al-Khowarizmi)就在著名的《波斯教科书》当中概括了进行四则算数运算的法则,而“算法”(Algorithm)一词就源自于这位数学家的名字。算法在其本质上是解决问题的一种方式,并不限于数学,例如按照食谱介绍烤面包时,食谱上所有的步骤就是一个算法。算法根据其自身的复杂程度可以被分为以下几种类型:

人工智能算法在本质上亦属于一种方法或步骤。现阶段人工智能算法的技术发展水平处于“黑盒子”阶段,开发“感知者”和“奇点”阶段的算法是人工智能开发者技术发展的方向,亦是学界争议将来是否存在的焦点问题之一。关于人工智能算法的界定,Tarleton教授认为:“算法不需要是软件,从广泛的意义上来说,算法是基于指定的运行过程将输入数据转换为期望输出的编码过程。

这个过程既指出了问题,也指出了解决该问题的步骤。”“算法是为了解决一个特定问题或者达成一个明确的结果而采取的一系列步骤。”2018年4月,英国议会下属的人工智能委员会发布的《英国人工智能发展的计划、能力与志向》(AlintheUK:Ready,WillingandAble)报告中将算法定义为“用计算机时执行计算或解决问题的一系列指令,他们构成了计算机可以执行的所有事情的基础,是所有人工智能系统的基本方面。”

人工智能算法不同于人工智能本身,却是人工智能最核心的组成部分。2019年4月8日欧盟发布的《可信赖人工智能伦理准则》(EthicsGuidelinesforTrustworthyAl)对人工智能进行定义,准确说出了人工智能算法在人工智能中的地位和作用:“人工智能(AI)系统是人类设计的软件(也可能是硬件)系统,在给定一个复杂目标的情况下,通过数据釆集感知其环境,解释釆集的结构化或非结构化数据,进行知识推理,处理从这些数据中获取的信息,并决定既定目标的最佳措施,以最终在物理或数字方面釆取行动。

AI系统可以使用符号规则或学习数字模型,也可以通过分析环境受先前操作的影响来调整其行为。”定义中所述的人工智能感知、解释、推理、处理信息、决定最佳措施及数字方面采取行动的过程都是算法作用的过程。同时该准则指出:“人工智能作为一门科学学科,包括多种方法和技术,如机器学习、机器推理和机器人技术。”而机器学习和机器推理即为算法的重要组成部分。

广义上机器学习一般包括机器推理,现被广受关注的深度学习(DeepLearning)属于机器学习中的一种,另外,监督学习(SupervisedLearning)、无监督学习(UnsupervisedLearning)和强化学习(ReinforcementLearning)等都属于人工智能算法或算法集合。随着大计算能力和大数据的长足发展,人工智能算法的迎来飞跃时期,人工智能借助算法、大计算能力和大数据三驾马车,使其具有了区别于普通法律客体的类人性学习、思考、辨别和决策等能力。

相较于其他事物和其他算法来说,人工智能算法作为人工智能的核心和灵魂,作为现阶段技术发展的代表和中坚,其具有以下特点:

第一,人工智能算法具有复杂性。在算法内部,世界的复杂性转变为五彩缤纷的内部活动模式。“现在的模型有数百万个人造神经元,深度达到了几十层”。人工智能算法市场的特征与大多数产品市场形成鲜明对比:在大多数产品中,个人可以轻松评估其所带来的利益和安全风险,而高度复杂和不透明的人工智能算法需要监管机构的专家评估。而且算法过程是动态的,其规则在新的数据模式中不断发生着变化,同样的问题在时间1所输出的结果,有可能与时间2所获得的结果没有相似之处,这种动态性使算法本身变得更加复杂。

第二,人工智能算法具有类人性。该特征得益于人工智能算法的复杂,其模仿人脑思维的复杂过程,以替代人类作为技术发展的目标。人工智能算法的分类、排序和决策等作用均是模仿和替代人类思维的过程,而人工智能应用于自动驾驶、医疗手术机器或其他智能机器人领域则是模仿和替代人类行为的过程。

第三,人工智能算法具有危险性。算法的危险性体现在两方面,一是以低概率犯下严重错误,主要体现为算法的出错。人工智能算法被广泛应用于各个领域,自动驾驶领域的算法出错或会导致严重的交通事故,医疗领域的算法出错或会导致病人的死亡或重伤,金融领域的算法出错或会使投资人遭受巨大财产损失。二是造成可能较小但长期而又广泛的危害,主要是指算法运行过程和结果缺乏法律规制而导致的偏差。例如算法所使用的数据是通过长期广泛地侵害人类隐私权而获得的,算法结果可能存在歧视或侵犯到算法受众的知情权。虽然这些危害有时候不如算法出错时的损害明显和严重,因此而常常被受害人忽略,但亦有导致严重损失的可能。而且,对这些广泛性损害的长期放任将会导致人类所创建的法律价值被逐渐侵蚀,人类文明或会岀现倒退。

第四,人工智能算法具有不透明性。人工智能算法的“黑箱”属性使算法输入与输出结果之间的运行过程难以被人类所知晓,由此而造成算法输出的正确性难以被验证,算法侵权难以被发现。即使出现了显而易见的侵权结果,应当对该侵权结果负责的主体亦难以确定。因此,与其他产品可以通过侵权法和市场声誉相结合将损害的处理维持在可接受的速度之内不同,现阶段侵权法规系统和市场很可能对人工智能算法危害的响应过于缓慢。

人工神经网络—感知器算法的意义

感知器算法的意义1.回顾2.感知器算法的意义2.1机器学习算法的框架的提出2.2框架的介绍2.3感知器算法的优势3.结尾参考资料1.回顾

在上一讲中,我们讲到了Rosenblatt在1957年提出的感知器算法,并证明了在线性可分条件下算法的收敛性。感知器算法的的实质是在训练数据集线性可分条件下,寻找分类的超平面,这与我们学过的支持向量机做的事情是差不多的,但是由于支持向量机是基于所有的训练数据寻找最大化间隔超平面,而感知器算法却是相对随意的找一个分开两类的超平面。因此,大多数时候,支持向量机划分的分类面往往比感知器算法好一点。

2.感知器算法的意义

下面是对于同一个训练数据集分别应用感知器算法和应用支持向量机算法获得的分类面,可见,支持向量机获得的分类面直观上比感知器算法要好。

图1感知器算法获得的分类面

图2支持向量机获得的超平面

上面的结果一点也不奇怪,因为感知器算法是1957年发明的,而支持向量机是1995年左右逐渐获得认可,两者之间隔了将近40年。它们在理论深度和实际性能上有差距是正常的事情。由于感知器算法性能不足够好,我们目前已经不再使用感知器算法了,但是它在机器学习这一领域的发展过程中却有着重要的历史意义。这种意义表现在感知器算法首先提出了一套机器学习算法的框架。

2.1机器学习算法的框架的提出

如下图3所示,假设一个系统输入是XXX,输出是YYY,现在有一组训练数据集(Xi,yi)(X_i,y_i)(Xi​,yi​),i=1⋅⋅⋅Ni=1···Ni=1⋅⋅⋅N,机器学习的目的是要寻找一个预测函数y=f(X,θ)y=f(X,θ)y=f(X,θ),这里fff的形式是我们人为指定的,而其中的θθθ是求的变量。机器学习的过程是运用数据集训练数据集(Xi,yi)(X_i,y_i)(Xi​,yi​)来求出θθθ。一旦θθθ求出来了,那么对于任意的测试样本,我们可以直接通过f(X,θ)f(X,θ)f(X,θ)计算输出YYY,从而完成对测试样本输出的预测。

图3某个系统

对比一下前面所讲,我们可以得出,在感知器算法中,待估计参数θ=(W,b)θ=(W,b)θ=(W,b),而f(X,θ)=sgn(WTX+b)f(X,θ)=sgn(W^TX+b)f(X,θ)=sgn(WTX+b)。

假设XXX是MMM维度的特征向量,那么待估计参数θθθ的维度将会是M+1M+1M+1维,即我们将要估计M+1M+1M+1个参数。

Rosenblatt是第一个提出这套机器学习算法框架的人,这个框架包含了所有的分与回归的问题,也包含强化学习、无监督学习等机器学习的其他领域的问题,这是一个相当广泛的算法框架。

2.2框架的介绍

下面介绍对此框架的直观感受与认识。首先训练数据的复杂度应该与预测函数fff的复杂度相匹配。这里有3张图,在第一张图中,训练数据的分布相对复杂,但fff是一个简单地线性函数,那么无论算出的θθθ等于多少都不可能全面的模拟训练数据的分布,我们把训练数据比预测函数更复杂的情况叫作模型欠拟合(underfit)。第二张图中,训练数据和预测函数的复杂度相适应的情况,这时模型的预测能力是比较好的。在第三张图中,训练数据的复杂度低于预测函数的复杂度,其结果将会是预测函数能相当精确地拟合训练数据,但是在没有训练数据的区域,预测函数也会“人为的”制造出复杂的函数值的分布。之所以说是“人为的”,是因为这种复杂的分布是由预测函数fff的具体形式决定的,而fff的具体形式是设计算法的人人为指定的,它并不反映数据在空间分布的真实情况。我们把预测函数复杂度高于训练数据复杂度的情况叫作过拟合(overfit)。在过拟合的情况下,会出现预测函数在训练数据上预测得非常精确,但在测试数据上却预测得很糟糕的局面。一般来说,现实生活中,机器学习问题训练数据的分布是非常复杂的。因此,我们要设计复杂的预测函数fff使它与训练数据的复杂程度相适应。在复杂的预测函数中,待求变量θθθ的维度也会非常高,举一个目前机器学习的例子:

这是2014年Facebook公司做人脸识别的分类器,由于人脸识别是一个复杂的任务,训练数据的分布极其复杂。为了描述这种分布,Facebook公司用了400多万张标注好的人脸数据进行训练,识别算法是一个深度学习的网络模型。深度学习也是我们人为指定的一种预测函数fff的形式,在这个预测函数fff的形式中,待求变量θθθ的维度是1800多万维,也就是说我们要通过400多万张人脸图片去求出θθθ的1800多万个分量。目前机器学习的任务和解决任务的方法复杂到了这样的程度,但是Rosenblatt提出的这套算法框架仍然适用。

2.3感知器算法的优势

我们继续看一下感知器算法(PerceptronAlgorithm)(1)随机选择W和b。(2)取一个训练样本(X,y)  (i)若WTX+b>0W^TX+b>0WTX+b>0且y=−1y=-1y=−1,则:  w=W−X,b=b−1w=W-X,b=b-1w=W−X,b=b−1  (ii)若WTX+b

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇