博舍

机器学习一般用来解决哪些方面的问题 人工智能出现的原因有哪些方面的问题和解决

机器学习一般用来解决哪些方面的问题

随着互联网的不断发展,程序员在学习编程语言的种类上也开始偏向于人工智能AI技术方面的知识学习了,下面我们就一起来了解一下,关于机器学习我们都需要解决哪些问题。

机器学习一般用来解决哪些方面的问题?

要问机器学习主要能解决什么问题,抛开各式各样的机器学习流派和层出不穷的算法模型不谈,机器学习主要解决的是两类问题:监督学习和无监督学习。掌握机器学习,主要就是学习这两类问题,掌握解决这两类问题的基本思路。

1、什么是解决这两类问题的基本思路呢?

基本思路,简而言之就是“套路”。放在这里的语境,那就是指:如何把现实场景中的问题抽象成相应的数学模型,并知道在这个抽象过程中,数学模型有怎样的假设。

2、如何利用数学工具,对相应的数学模型参数进行求解。

3、如何根据实际问题提出评估方案,对应用的数学模型进行评估,看是否解决了实际问题。

这三步就是我们学习监督学习和无监督学习,乃至所有的机器学习算法的核心思路。机器学习中不同模型、不同算法都是围绕这三步来展开的,我们不妨把这个思路叫作“三步套路”。

那什么是监督学习呢?

监督学习是指这么一个过程,我们通过外部的响应变量(ResponseVariable)来指导模型学习我们关心的任务,并达到我们需要的目的。这也就是“监督学习”中“监督”两字的由来。也就是说,监督学习的终目标,是使模型可以更准确地对我们所需要的响应变量建模。比如,我们希望通过一系列特征来预测某个地区的房屋销售价格,希望预测电影的票房,或者希望预测用户可能购买的商品。这里的“销售价格”、“电影票房”以及“可能购买的商品”都是监督学习中的响应变量。

那什么是无监督学习呢?

通常情况下,无监督学习并没有明显的响应变量。无监督学习的核心,往往是希望发现数据内部的潜在结构和规律,为我们进行下一步决断提供参考。典型的无监督学习就是希望能够利用数据特征来把数据分组,机器学习语境下叫作“聚类”。

根据不同的应用场景,聚类又有很多变种,比如认为某一个数据点属于一个类别,或者认为某一个数据点同时属于好几个类别,只是属于每个类别的概率不同等等。

无监督学习的另外一个作用是为监督学习提供更加有力的特征。通常情况下,无监督学习能够挖掘出数据内部的结构,而这些结构可能会比我们提供的数据特征更能抓住数据的本质联系,因此监督学习中往往也需要无监督学习来进行辅助。

我们简要回顾了机器学习中两大类问题的定义。在学习这两大类模型和算法的时候,有这么一个技巧,就是要不断地回归到上面提到的基本思路上去,就是这个“三步套路”,反复用这三个方面来审视当前的模型。另外,我们也可以慢慢地体会到,任何新的模型或者算法的诞生,往往都是基于旧有的模型算法,在以上三个方面中的某一个或几个方向有所创新。

监督学习的基础

监督学习的基础是三类模型:

线性模型

决策树模型

神经网络模型

掌握这三类模型就掌握了监督学习的主干。利用监督学习来解决的问题,占所有机器学习或者人工智能任务的绝大多数。这里面,有90%甚至更多的监督学习问题,都可以用这三类模型得到比较好的解决。

这三类监督学习模型又可以细分为处理两类问题:

分类问题

回归问题

分类问题的核心是如何利用模型来判别一个数据点的类别。这个类别一般是离散的,比如两类或者多类。回归问题的核心则是利用模型来输出一个预测的数值。这个数值一般是一个实数,是连续的。

有了这个基本的认识以后,我们利用前面的思路来看一下如何梳理监督学习的思路。这里用线性模型的回归问题来做例子。但整个思路可以推广到所有的监督学习模型。

线性回归模型(LinearRegression)是所有回归模型中简单也是核心的一个模型。我们依次来看上面所讲的“三步套路”。

先一步,我们需要回答的问题是,线性回归对现实场景是如何抽象的。顾名思义,线性回归认为现实场景中的响应变量(比如房价、比如票房)和数据特征之间存在线性关系。而线性回归的数学假设有两个部分:

响应变量的预测值是数据特征的线性变换。这里的参数是一组系数。而预测值是系数和数据特征的线性组合。

响应变量的预测值和真实值之间有一个误差。这个误差服从一个正态(高斯)分布,分布的期望值是0,方差是σ的平方。

有了这样的假设以后。二步就要看线性回归模型的参数是如何求解的。这里从历史上就衍生出了很多方法。比如在教科书中一般会介绍线性回归的解析解(Closed-formSolution)。线性回归的解析解虽然简单优美,但是在现实计算中一般不直接采用,因为需要对矩阵进行逆运算,而矩阵求逆运算量很大。解析解主要用于各种理论分析中。

线性回归的参数还可以用数值计算的办法,比如梯度下降(GradientDescent)的方法求得近似结果。然而梯度下降需要对所有的数据点进行扫描。当数据量很多的时候,梯度下降会变得很慢。于是随机梯度下降(StochasticGradientDescent)算法就应运而生。随机梯度下降并不需要对所有的数据点扫描后才对参数进行更新,而可以对一部分数据,有时甚至是一个数据点进行更新。

从这里我们也可以看到,对于同一个模型而言,可以用不同的算法来求解模型的参数。这是机器学习的一个核心特点。

后三步,我们来看如何评估线性回归模型。由于线性回归是对问题的响应变量进行一个实数预测。那么,简单的评估方式就是看这个预测值和真实值之间的绝对误差。如果对于每一个数据点我们都可以计算这么一个误差,那么对于所有的数据点而言,我们就可以计算一个平均误差。

上述对于线性回归的讨论可以扩展到监督学习的三类基本模型。这样你就可以很快掌握这些模型的特点和这些模型算法之间的联系。

无监督学习的基础

现实中绝大多数的应用场景并不需要无监督学习。然而无监督学习中很多有价值的思想非常值得初学者掌握。另外,无监督学习,特别是深度学习支持下的无监督学习,是目前机器学习乃至深度学习的前沿研究方向。所以从长远来看,了解无监督学习是非常必要的。

我们前面说到,无监督学习的主要目的就是挖掘出数据内在的联系。这里的根本问题是,不同的无监督学习方法对数据内部的结构有不同的假设。因此,无监督学习不同模型之间常常有很大的差别。在众多无监督学习模型中,聚类模型无疑是重要的代表。了解和熟悉聚类模型有助于我们了解数据的一些基本信息。

聚类模型也有很多种类。这里我们就用常见的、非常重要的K均值算法(K-means),来看看如何通过前面讲过的“三步套路”来掌握其核心思路。

先,K均值算法认为数据由K个类别组成。每个类别内部的数据相距比较近,而距离所有其他类别中的数据都比较遥远。这里面的数学假设,需要定义数据到一个类别的距离以及距离函数本身。在K均值算法中,数据到一个类别的距离被定义为到这个类别的平均点的距离。这也是K均值名字的由来。而距离函数则采用了欧几里得距离,来衡量两个数据点之间的远近。

直接求解K均值的目标函数是一个NP难(NP-hard)的问题。于是大多数现有的方法都是用迭代的贪心算法来求解。

一直以来,对聚类问题、对无监督学习任务的评估都是机器学习的一个难点。无监督学习没有一个真正的目标,或者是我们之前提到的响应变量,因此无法真正客观地衡量模型或者算法的好坏。对于K均值算法而言,比较简单的衡量指标就是,看所有类别内部的数据点的平均距离和类别两两之间的所有点的平均距离的大小。如果聚类成功,则类别内部的数据点会相距较近,而类别两两之间的所有点的平均距离则比较远。

以上我们通过“三步套路”的三个方面讨论了K均值算法的核心思路,这种讨论方法也适用所有的聚类模型和算法。

参考链接:http://ty.tedu.cn/news/365354.html

人工智能技术应用的领域主要有哪些

随着智能家电、穿戴设备、智能机器人等产物的出现和普及,人工智能技术已经进入到生活的各个领域,引发越来越多的关注。那么,人工智能目前都应用在哪些领域,运用了怎样的技术原理呢?

什么是人工智能?

人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,是认知、决策、反馈的过程。曾经有很多人戏称,人工智能就像一列火车,你苦苦期盼,它终于来了,然后它呼啸而过,把你抛在身后。虽然这是一种笑谈,但也反应了人工智能技术发展的迅速和无法想象的快,可能一个不小心,你就被远远甩在身后。

##人工智能技术的细分领域有哪些?人工智能技术应用的细分领域:深度学习、计算机视觉、智能机器人、虚拟个人助理、自然语言处理—语音识别、自然语言处理—通用、实时语音翻译、情境感知计算、手势控制、视觉内容自动识别、推荐引擎等。

1、深度学习

深度学习作为人工智能领域的一个应用分支,不管是从市面上公司的数量还是投资人投资喜好的角度来说,都是一重要应用领域。说到深度学习,大家第一个想到的肯定是AlphaGo,通过一次又一次的学习、更新算法,最终在人机大战中打败围棋大师李世石。百度的机器人“小度”多次参加最强大脑的“人机大战”,并取得胜利,亦是深度学习的结果。

深度学习的技术原理:

1.构建一个网络并且随机初始化所有连接的权重;2.将大量的数据情况输出到这个网络中;3.网络处理这些动作并且进行学习;4.如果这个动作符合指定的动作,将会增强权重,如果不符合,将会降低权重;5.系统通过如上过程调整权重;6.在成千上万次的学习之后,超过人类的表现;

2、计算机视觉

计算机视觉是指计算机从图像中识别出物体、场景和活动的能力。计算机视觉有着广泛的细分应用,其中包括,医疗成像分析被用来提高疾病的预测、诊断和治疗;人脸识别被支付宝或者网上一些自助服务用来自动识别照片里的人物。同时在安防及监控领域,也有很多的应用……

计算机视觉的技术原理:

计算机视觉技术运用由图像处理操作及其他技术所组成的序列来将图像分析任务分解为便于管理的小块任务。比如,一些技术能够从图像中检测到物体的边缘及纹理。分类技术可被用作确定识别到的特征是否能够代表系统已知的一类物体。

3、语音识别

语音识别技术最通俗易懂的讲法就是语音转化为文字,并对其进行识别认知和处理。语音识别的主要应用包括医疗听写、语音书写、电脑系统声控、电话客服等。

语音识别技术原理:

1、对声音进行处理,使用移动窗函数对声音进行分帧;2、声音被分帧后,变为很多波形,需要将波形做声学体征提取,变为状态;3、特征提起之后,声音就变成了一个N行、N列的矩阵。然后通过音素组合成单词;

4、虚拟个人助理

说到虚拟个人助理,可能大家脑子里还没有具体的概念。但是说到Siri,你肯定就能立马明白什么是虚拟个人助理。除了Siri之外,Windows10的Cortana也是典型代表。

虚拟个人助理技术原理:(以Siri为例)

1、用户对着Siri说话后,语音将立即被编码,并转换成一个压缩数字文件,该文件包含了用户语音的相关信息;2、由于用户手机处于开机状态,语音信号将被转入用户所使用移动运营商的基站当中,然后再通过一系列固定电线发送至用户的互联网服务供应商(ISP),该ISP拥有云计算服务器;3、该服务器中的内置系列模块,将通过技术手段来识别用户刚才说过的内容。总而言之,Siri等虚拟助理软件的工作原理就是“本地语音识别+云计算服务”。

5、语言处理

自然语言处理(NLP),像计算机视觉技术一样,将各种有助于实现目标的多种技术进行了融合,实现人机间自然语言通信。

语言处理技术原理:

1、汉字编码词法分析;2、句法分析;3、语义分析;4、文本生成;5、语音识别;

6、智能机器人

智能机器人在生活中随处可见,扫地机器人、陪伴机器人……这些机器人不管是跟人语音聊天,还是自主定位导航行走、安防监控等,都离不开人工智能技术的支持。

智能机器人技术原理:

人工智能技术把机器视觉、自动规划等认知技术、各种传感器整合到机器人身上,使得机器人拥有判断、决策的能力,能在各种不同的环境中处理不同的任务。

智能穿戴设备、智能家电、智能出行或者无人机设备其实都是类似的原理。7、引擎推荐

不知道大家现在上网有没有这样的体验,那就是网站会根据你之前浏览过的页面、搜索过的关键字推送给你一些相关的网站内容。这其实就是引擎推荐技术的一种表现。

Google为什么会做免费搜索引擎,目的就是为了搜集大量的自然搜索数据,丰富他的大数据数据库,为后面的人工智能数据库做准备。

引擎推荐技术原理:

推荐引擎是基于用户的行为、属性(用户浏览网站产生的数据),通过算法分析和处理,主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。快速推荐给用户信息,提高浏览效率和转化率。

关于人工智能的展望

除了上面的应用之外,人工智能技术肯定会朝着越来越多的分支领域发展。医疗、教育、金融、衣食住行等等涉及人类生活的各个方面都会有所渗透。

当然,人工智能的迅速发展必然会带来一些问题。比如有人鼓吹人工智能万能、也有人说人工智能会对人类造成威胁,或者受市场利益和趋势的驱动,涌现大量跟人工智能沾边的公司,但却没有实际应用场景,过分吹嘘概念。

转自:http://www.arduino.cn/thread-45848-1-1.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇