一个简单的例子来理解监督学习和非监督学习及其区别
首先,必须理解两个基本概念:特征值和目标值,先看图例
1、特征值:
特征值是指数据的特征,对于每个样本,通常具有一些"属性"(Attribute)或者说”特征“(Feature),特征所具体取的值就被称作”特征值“。
比如,苹果的皮是”光滑“的,橘子的皮是”褶皱“的,”光滑“和”褶皱“就是”苹果“和”橘子“这两个样本的特征值
2、目标值(标签)
目标值又叫标签,是数据的标签,它描述了该条样本数据所属的目标或类型。
比如,样本1, ”光滑”、“球形”及后面的一系列特征所描述的目标是“苹果”
那么:
监督学习和非监督学习的差别之一就在于:有没有目标值的差别 而另一个区别就在于:学习过程有没有人工干预监督学习
当一个孩子逐渐认识事物的时候,父母给他一些苹果和橘子(目标值),并且告诉他苹果是什么样的,有哪儿些特征(特征值),橘子是什么样的,有哪儿些特征(特征值)。经过父母的不断介绍,这个孩子已经知道苹果和橘子的区别,如果孩子在看到苹果和橘子的时候给出错误的判断,父母就会指出错误的原因(人工干预),经过不断地学习,再见到苹果和橘子的时候,孩子立即就可以做出正确的判断。
上面这个例子就是监督学习的过程,也就是说,在学习过程中,不仅提供事物的具体特征,同时也提供每个事物的名称。不过在人类学习的过程中,父母可以让孩子观察、触摸苹果和橘子,而对于机器却不一样,人类必须提供每个样本(苹果和橘子)的特征及对应的种类,使用这些诗句,通过算法让机器学习,进行判断,逐步减小误差率。
也可以这样理解:监督学习是从给定的训练数据集中“学习”出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,即特征和目标。训练集中的目标是由人类事先进行标注的。
主要用途:分类(Classify)和回归(Regression)。
常见算法:k-近邻算法、决策树与随机森林、逻辑回归、神经网络、朴素贝叶斯、Logistic回归、支持向量机、AdaBoost算法、线性回归、局部加权线性回归、收缩和树回归等
非监督学习同样的一个孩子,在一开始认识事物的时候,父母会给他一些苹果和橘子,但是并不告诉他哪儿个是苹果,哪儿个是橘子,而是让他自己根据两个事物的特征自己进行判断,会把苹果和橘子分到两个不同组中,下次再给孩子一个苹果,他会把苹果分到苹果组中,而不是分到橘子组中。
这个例子就是非监督学习的过程,也就是说,在学习的过程中,只提供事物的具体特征(特征值),但不提供事物的名称(目标值),让学习者自己总结归纳。所以非监督学习又称为归纳性学习(Clustering),是指将数据集合分成由累死的对象组成的多个簇(或组)的过程。当然,在机器学习的过程中,人类只提供每个样本(苹果和橘子)的特征,使用这些数据,通过算法让机器学习,进行自我归纳,以达到同组内的事物特征非常接近,不同组的事物特征相距很远的结果。
主要用途:聚类等
常见算法:k-means、Apriori、FP-Growth等
监督和非监督分类及后处理过程全过程(超详细带解读)
首先,我们得先搞清楚什么是监督分类?什么是非监督分类?
监督分类是需要学习训练的分类方法,需要自己选择样本,需要先学习后分类;非监督分类不需要人工采集地物样本点数据,多是通过聚类的方法来自动分类,可以边学习边分类。
监督分类:又称训练场地法,是以建立统计识别函数为理论基础,依据典型样本训练方法进行分类的技术。
非监督分类:以不同影像地物在特征空间中类别特征的差别为依据的一种无先验类别标准的图像分类,是以集群为理论基础,通过计算机对图像进行集聚统计分析的方法。
1.监督分类前一般需要做非监督分类来对比监督分类的结果。可以看到非监督分类有isodata和kmeans两种方法
注:iSODATA算法是在k-均值算法的基础上,增加对聚类结果的“合并”和“分裂”两个操作。我们可以选择这个优化的方法来非监督分类一下。
显示isodata办法,numberofclass填写你估计有多少类(一个区间);maximumiterations填写迭代次数。迭代次数一般到效果差不多时停止。这里我们选取迭代5次进行停止运算
结果
2.
2.监督分类监督分类的方法有
我们一般采用最大似然法maxiumnlikelihood;即为假定每个波段中的每类的统计都呈现正态分布,并将计算出给定象元都被归到概率最大的哪一类里。缺陷是如果波段相关性大,那么效果不好。
好了,进入正题,我们用标准假彩色打开图像。监督分类是一个先训练后干活的方法,所以我们先搞个训练样本出来。在大窗口TOOls--.>roi-->
在大窗口左键画图右键结束如图
在roi列表里我们可以改变该地类颜色和名字,山地可以改为thistle
以此类推,我们添加几种地类兴趣样本
保存--roi框里的file--saveroi--selecetallitems全选选择保存地址。
打开最大似然法选择roi点
可以看到上图分类效果,其实不怎么样;因为我们采取了标准模式
接下来,上个小tips
打开原roi列表窗口
打开图中所示
这一步是端元提取可以起到提纯作用
选波段然后option--show
start调速度stop停止
勾选同一颜色集中区域导出
删除原roi保存roi 在在最大似然法打开
最后结果出图
设置边框
添加mapkey
加上比例尺,指南针
3.后处理目的减小噪声
选取图层,默认选项点击完成就好
另外最后可以进行一下验证
这就是监督分类和后处理的大致流程。后期将推出实战,广州影像监督分类后处理及出图
机器学习之监督与非监督算法
机器学习1、概念学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。
机器学习有下面几种定义:
(1)机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
(2)机器学习是对能通过经验自动改进的计算机算法的研究。
(3)机器学习是用数据或以往的经验,以此优化计算机程序的性能标准
Tom定义的机器学习是,一个好的学习问题定义如下,他说,一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。我认为经验E就是程序上万次的自我练习的经验(在下棋训练中,任务T就是下棋。性能度量值P呢,就是它在与一些新的对手比赛时,赢得比赛的概率)
2、算法目前存在多种不同类型的学习算法。主要的两种类型被我们称之为监督学习和无监督学习。机器学习的算法分为监督学习算法和非监督学习算法。是否有监督,就看输入数据是否有标签。输入数据有标签,则为有监督学习,没标签则为无监督学习。
(1)监督学习给计算机一个带有标签的数据集,让计算机进行给出想要的结果与确切的结果。
主要分为以下两类,回归与分类。
1.线性回归算法线性回归算法通常用来构建一个预测模型。例如,根据房子年限、房屋面积这两个特性,来预测房屋价格,就可以构建一个线性回归算法。利用已有的数据训练模型,再用训练好的模型预测新的房价。
如果有一个输入x,对应一个输出y,就可以构建一个一维现行回归模型,通常表现为一条直线或取现,当给定一个x值时,对应可以求出y值。当有多个特征共同影响y值时,就可以构建一个多元的线性回归模型。
2.逻辑回归算法逻辑回归算法用来进行对数据的分类。它和线性回归算法类似,不同之处在于,输出值y是给定的几类。最常见的是分成两类,如好和坏。使用逻辑回归算法,可以根据输入数据的特征,判断该条数据的输出是哪一类的。
(2)非监督学习给计算机一个数据集,预先是不知道该数据集的具体情况,对于监督学习里的每条数据,我们已经清楚地知道训练集对应的正确答案。而非监督学习则不是这样,只是给数据集让计算机自行处理,给出处理后的结果。主要分为以下几种:
1.Kmeans聚类聚类是一种非监督学习,它和分类的不同之处在于,分类是有标签的,而聚类是无标签的。分类的结果是知道哪个好哪个坏,而聚类是根据特性,将相似的事物聚集到一起,不考虑它们的好坏。Kmeas算法是聚类算法中的一种,可以根据输入的特性,将一些数据聚集为成任意多个类别。Kmeas算法使用距离的远近来聚集一类数据。
2.降维有的时候,一条数据的输入特性可能有很多。比如,在预测房价的问题上,可能会输入房间面积、年限、地理位置相关信息等近百个属性。使用这么多属性进行分析,会为分析过程带来麻烦。降维,就是将这些D个维度的输入属性,缩小成d个维度的输入属性。它将一些输入特性合并或进行某些操作,来减少变量的数量。
3.异常检测异常检测用来判断某一个数据,其输入特性是否异常。例如,有多个属性来描述一个飞机的发动机,在大量的数据输入中,通过异常检测,来发现哪条数据记录存在异常。