人工智能之回归模型(RM
人工智能之回归模型(RM)
原创 张志荣
前言:人工智能机器学习有关算法内容,请参见公众号之前相关文章。人工智能之机器学习主要有三大类:1)分类;2)回归;3)聚类。今天我们重点探讨一下回归模型(RM)。^_^
回归不是单一的有监督学习技术,而是许多技术所属的整个类别。回归的目的是预测数值型的目标值,如预测商品价格、未来几天的PM2.5等。最直接的办法是依据输入写出一个目标值的计算公式,该公式就是所谓的回归方程(regressionequation)。求回归方程中的回归系数的过程就是回归。回归是对真实值的一种逼近预测。回归是统计学中最有力的算法之一。
回归概念:
回归是一个数学术语,指研究一组随机变量(Y1,Y2,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。其中,X1、X2,…,Xk是自变量,Y1,Y2,…,Yi是因变量。
回归模型:
回归模型(RegressionModel)对统计关系进行定量描述的一种数学模型。它是一种预测性的建模技术,研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
回归分析:
回归模型重要的基础或者方法就是回归分析。回归分析是研究一个变量(被解释变量)关于另一个(些)变量(解释变量)的具体依赖关系的计算方法和理论,是建模和分析数据的重要工具。回归分析是用已知样本对未知公式参数的估计,给出一个点集D,用一个函数去拟合这个点集,并且使得点集与拟合函数间的误差最小。
回归分类:
在统计学中,回归分析(regressionanalysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
常见的回归种类有:线性回归、曲线回归、逻辑回归等。
线性回归:
如果拟合函数为参数未知的线性函数,即因变量和自变量为线性关系时,则称为线性回归。
通过大量训练,得到一个与数据拟合效果最好的模型,可利用一些算法(比如最小二乘法、梯度下降法等)和工具(SPSS)来更快更好的训练出适用的线性回归模型。实质是求解出每个特征自变量的权值θ。
在训练过程中,特征选择,拟合优化等都需要考虑。
最终目标是确定每个权值(参数)θ或者通过算法逼近真实的权值(参数)θ。
需要注意的是,线性回归不是指样本的线性,样本可以是非线性的,而是指对参数θ的线性。
线性回归问题:可能会出现欠拟合、非满秩矩阵问题等。
解决方法:解决欠拟合问题,可采用局部加权线性回归LWLR(LocallyWeightedLinearRegression)。解决非满秩矩阵问题,可使用岭回归RR(ridgeregression)、Lasso法、前向逐步回归等。
算法优点:
1)最可解释的机器学习算法之一,理解与解释都十分直观;
2)易于使用,因为需要最小的调谐;
3)运行快,效率高;
4)最广泛使用的机器学习技术。
非线性回归:
如果拟合函数为参数未知的非线性函数,则称为非线性或曲线回归。非线性函数的求解一般可分为将非线性变换成线性和不能变换成线性两大类。
1) 变换成线性:处理非线性回归的基本方法。通过变量变换,将非线性回归化为线性回归,然后用线性回归方法处理。一般采用线性迭代法、分段回归法、迭代最小二乘法等。
2)不能变换成线性:基于回归问题的最小二乘法,在求误差平方和最小的极值问题上,应用了最优化方法中对无约束极值问题的一种数学解法——单纯形法。该算法比较简单,收敛效果和收敛速度都比较理想。
常见的非线性回归模型:1)双曲线模型;2)幂函数模型;3)指数函数模型;4)对数函数模型;5)多项式模型。
逻辑回归
将result归一化到[0,1]区间,即使用一个逻辑方程将线性回归归一化,称为逻辑回归(logisticregression)。它是一种广义的线性回归。
逻辑回归(logisticregression)可分为二元逻辑回归、多元逻辑回归。
逻辑回归(logisticregression)是与线性回归相对应的一种分类方法。该算法的基本概念由线性回归推导而出。逻辑回归通过逻辑函数(即Sigmoid函数)将预测映射到0到1中间,因此预测值就可以看成某个类别的概率。
逻辑回归模型仍然还是线性的。只有在数据是线性可分,即数据可被一个超平面完全分离时,算法才能有优秀的表现。同样Logistic模型能惩罚模型系数而进行正则化。
算法优点:
1)输出有很好的概率解释;
2) 算法也能正则化而避免过拟合;
3)Logistic模型很容易使用随机梯度下降和新数据更新模型权重。
算法缺点:
Logistic回归在多条或非线性决策边界时性能比较差。
最小二乘法:
最小二乘法(或称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法可用于直线或曲线拟合。其他一些优化问题也可用最小二乘法来解决。
梯度下降法:
梯度下降法是一种迭代求全局最优(凸函数)或局部最优(非凸函数)的算法。在大数据情况下,数据的特征维度很多维,那么此时对其使用最小二乘法计算量会很大。于是考虑采用梯度下降法来求出最优。
梯度下降法主要思想:人在山顶下,有n多条路径下到山的最底部。从山顶当前位置计算所有方向的偏导,求出当前位置的各个偏导后,得到各个偏导函数的最小值,最小值即当前位置梯度的反方向,所以称为梯度下降法。
回归步骤:
1)确定变量:明确预测的具体目标,也就确定了因变量。通过调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。
2)建立预测模型:依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
3)进行相关分析:回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。一般需要求出相关关系(通常用逐步回归、向前回归和向后回归等方法),以相关系数的大小来判断自变量和因变量的相关程度。
4)计算预测误差:回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
5)确定预测值:利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
注意问题:
正确应用回归分析预测时应注意:
1)用定性分析判断现象之间的依存关系;
2)避免回归预测的任意外推;
3)应用合适的数据资料.
回归应用:
回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
一般来说,对于连续值预测可采用线性回归和非线性回归;对于离散值/类别预测,可采用逻辑回归。
线性回归用在:销售预测、风险评估等领域。
非线性回归用在:经济预测、人力需求等领域。
逻辑回归用在:数据挖掘,疾病自动诊断等领域。
结语:
回归模型能够解决预测和分类问题。根据自变量的个数分为一元和多元回归;根据是否线性关系分为线性回归和非线性回归。在求解回归模型时要在特定的情况下选用对应的方法,在维度小或线性回归时可选用最小二乘法,而在Logistic回归时应选用梯度下降法。回归模型在人工智能之机器学习、经济预测、数据挖掘,疾病自动诊断、销售预测和风险评估等方面有着广泛应用。
------以往文章推荐------
· 机器学习
· 深度学习
· 人工神经网络
· 决策树
· 随机森林
· 强化学习
· 迁移学习
· 遗传算法
· 朴素贝叶斯
· 支持向量机
· 蒙特卡罗方法
· 马尔可夫模型
· Hopfield神经网络
---------------------------------------------------------------
更多有关AI/ML文章,敬请关注“科技优化生活”微信公众号,谢谢!
人工智能的12个典型案例
但以亚马逊的推荐系统为例,它是一个交易性人工智能平台的强大引擎。人们可能已经观察到它的能力,这个系统可以不断学习。本质上,大批购物者正在“教导”亚马逊人工智能系统,以便更好地展示可能出售的商品。也就是说,将一件商品与过去展示的另一件商品相匹配将促进销售,可以将半关联的概念联系起来(例如灯架与摄影设备)。
另一方面,这种高端的人工智能系统需要庞大的计算平台来处理所有这些数据。对于使用小型服务器的用户来说很难为此类系统提供支持。显然,亚马逊网络服务公司拥有世界领先的计算平台。
3.Pandora
对于那些认为人工智能将会取代人类工作的人们来说,Pandora人工智能系统就是一个与人类合作的例子。首先,Pandora通过音乐专业人员的帮助来分析和分类歌曲。Pandora着眼于歌曲的450种属性进行分类,从声乐风格到节奏感。
当其人工智能算法工作时,根据大量用户对其歌曲库的响应,结合了来自用户的大量推荐。然后,人工智能系统可以批量分组和呈现对于用户具有意义的歌曲。
4.Cogito
这无疑是人工智能最活跃的领域之一:在销售和客服电话中使用人工智能,可以增强与客户的情感联系。具体地说,使用人工智能互动比人类更具移情能力。当然,这是人工智能使用的一个前沿。
Cogito(拉丁语的意思是“自我意识”)使用了人类互动的关键真理:它不仅仅是词语的表达意义,而且是词语的表达方式、情绪、节奏和感觉。
Cogito软件可以实时分析对话,提供有关正确和错误的线索和提示。也许对话者可能切入太多主题,或者反应不够快。应用程序提供基于颜色的警告和更新。该软件可以分析数百条线索,以确定对话的情感质量。
5.Nest
推动人工智能增长的关键因素之一是资金雄厚的厂商之间的竞争,希望在早期获得市场份额。以谷歌公司旗下的家用恒温器Nest为例,其部分目标是将谷歌公司的人工智能构建到设备中,用来应对苹果Siri和亚马逊Alexa的不断增长。
Nest使用人工智能来适应人类的行为模式,获得恒定的输入线索,并在家中工作时做出更准确的反应。在业主设置系统一段时间之后,Nest可以自己整合输入。
无论如何,智能家庭设备(物联网设备)无疑是争夺人工智能市场支配地位的关键战场。让一整组智能家庭设备协同行动,它们可以响应家庭成员的指令,并根据其行为学习,这显然是人工智能在家庭应用中的未来。
6.Boxever
总部位于爱尔兰的Boxever公司推出其Boxever“个性化平台”,其主要目标是旅游业。其基于云计算的平台允许旅游公司创建一个单一的客户视图,从而为客户提供更有效的营销。它的目标是通过单独针对客户来改进销售过程。如果人工智能可以在一对一的基础上定制交互过程,理论上它可以更有效地服务(并销售给)客户。
Boxever公司的方法承认竞争的关键部门是客户体验。如果零售商更加谨慎地满足客户的需求,将会在电子商务竞争中获胜。而使用智能软件比人工销售代表的成本要低得多。
7.AIRobotics、Humanoid和其他
人工智能为机器人的应用提供动力,其中包括加州大学伯克利分校的BRETT和麻省理工学院的MITdog。Sophia就是一个受到媒体热捧的人工智能机器人的例子,它和NBC电视台主持人JimmyFallon在“今夜秀”上聊天和唱歌。
除了流行文化的喧嚣之外,还有各种规格和大小的人工智能机器人。例如iRobot公司的RoomBA980吸尘器采用了人工智能技术,可以在家中完成各种清扫工作。该公司声称,Roombas公司已售出1000多万台RoomBA980吸尘器。
8.垃圾邮件过滤器
人工智能的核心就是学习。而使用机器学习和其他人工智能技术,软件系统将变得更智能,无需人工协助。
当然,采用人工智能防止垃圾邮件是一个迫切需要机器学习的领域。工作人员(甚至是团队)难以跟上垃圾邮件的增长。例如,Gmail会部署机器学习算法来过滤(大部分)垃圾邮件。
为此,垃圾邮件过滤器试图更快地跟上垃圾邮件发送者的工作,他们不断采用创造性的方法来欺骗收件人。垃圾邮件过滤器中的人工智能会持续扫描元数据,例如发件人的位置或主题行中的关键字。如果无法学习,垃圾邮件过滤器将在几天之后无法运行。
人工智能技术是使用来自人类的输入:因为对于一个用户具有价值的优惠券对于另一个用户来说则是垃圾邮件。特定用户如何对邮件流进行分类必须是垃圾邮件过滤器学习的一部分。
9.网上银行业务
银行为用户提供方便的优惠:扫描其支票并将其金额存入移动设备中,无需去实际的分支机构存款。其问题是:这样做需要机器来阅读用户的签名,这是一项既混乱又令人困惑的工作——甚至对工作人员来说也是如此。
在其他供应商中,MitekSystems公司采用专门从事基于软件的身份验证。其人工智能技术利用计算机视觉和机器学习使移动到银行的交易安全。
例如,Mitek公司采用视觉算法对银行交易中的无数ID格式进行分类。其核心是光学字符识别(OCR)软件,它扫描文档并将数据转换为可编辑的格式。可以使用人工智能调整OCR软件以准确提取个人签名或指纹。
10.贷款和信用卡处理
当消费者申请信用卡或贷款时,消费者信用评分(FICO)(通常在300到850分之间)将起到至关重要的作用。在过去,贷款工作人员审查了这些贷款和信用卡申请。虽然仍有很多工作人员,但许多关于信用卡的决定或者是否接受消费者的申请,都是由机器学习系统做出的。
同样,学习是这个过程的核心部分。银行管理人员可以设置他们希望当前信贷标准是宽松还是紧缩的参数。但他们希望银行的机器学习系统能够随着时间的推移而学习,以便更密切地确定哪些申请人是安全的借贷者。
11.Lyft和Uber
没有人工智能和机器学习技术,共享单车是不可能存在的。具体来说,票价、预计到达时间以及它将要走的路线:这些都是人工智能计算出来的。
人工智能即时进行大量计算。如果没有一个分析情况的机器学习系统,然后将结果数据路由到用户和驱动程序的应用程序,这些计算的数量和复杂性将是不可能的。当然,Lyft和Uber公司将其记录在自己的系统上,这两家公司拥有关于用户模式的大量数据。
在未来,这些服务预计将出现无人驾驶汽车的时代(尽管这种情况发生时最多仍然模糊不清)。如果没有人类驱动程序的元素,运行系统的过程将成为更纯粹的逻辑机器学习计算。从理论上说,这将导致共享乘车服务的成本下降,甚至可以节省雇佣驾驶员的成本。
12.社交网络
主要的社交媒体网络是人工智能发展的核心驱动力。特别是Facebook公司似乎采用了人工智能的各方面功能。例如,其算法定义了用户的时间轴,决定是否在其时间轴上显示或不显示其朋友的某些帖子。Facebook公司知道,如果某个用户的每位朋友都被展示出来,那么时间表就将变得很混乱,以至于它会让人感到厌烦。因此,时间轴算法可以了解用户与谁进行交互以及其通常忽略的对象。
对于Facebook而言,最重要的是,社交网络使用人工智能来帮助个性化为用户提供广告的方式,因此它具有一定程度的广告显示相关性。需要注意,Facebook允许用户评论广告与时间线的相关性;每个用户评论都有助于系统学习并变得更精细。由于他们使用人工智能微调显示系统的方式,Facebook和谷歌在整个网络广告市场的比例非常高。
此外,Facebook使用图像识别人工智能技术来识别照片中的人脸,因此它可以邀请用户为其添加标签。毫不奇怪,考虑到照片对Facebook的重要性,Facebook在面部识别技术上投入了大量资金。采用机器“读取”照片是当今人工智能时代最为显著的进步之一。返回搜狐,查看更多