(学习笔记)人工神经网络——感知器
概述感知器模型由心理学家Rosenblatt于1958年提出,并发表在论文“ThePerceptron:AProbabilisticmodelforinformationstorageandorganizationinthebrain"中。1962年他又出版了著作《principlesofneurodynamics:perceptronsandthrtheoryofbrainmechanisms》,本书详细地阐述了感知器的基本理论及假设背景,并介绍了如感知器收敛定理等一些重要的概念及定理证明。
作为人工神经网络中的一种典型结构,感知器的神经元采用的是MP模型,在研究中还发现单层感知器只能在线性可分情况下进行模型分类,而且只能解决数据本身是线性可分的二分类问题。
1961年minsky指出了单层神经网络不能解决异或问题,也就证明感知器的运算能力有限。后来他与papert一同出版了《perceptrons:anintroductiontocomputationalgeometry》,对单层感知器的局限性作了严格的数学证明和分析。
指导1987年,书中的错误才得到了校正,并更名《perceptrons:expandededition》。
感知器结构:感知器即单层神经网络,也即神经元,是组成神经网络的最小单元。
感知器的输出为:y=f(n)=f(wx+b)
其中,w和b为感知器模型参数,w表示全权值,b表示偏置,wx表示w和x的内积。
在感知层进行学习时,每一个样本都将作为一个刺激输入神经元。输入信号是每一个样本的特征,期望的输出是该样本的类别。当输出与类别不同时,可以通过调整突触权值和偏置值,直到每个样本的输出与类别相同。
原理:输入向量X=(x1,x2,xr)T为样本的特征维,对应权值向量W=(w1,w2,wr)为一组参数。因此线性方程WX+b=0对应于空间中的一条直线。Wi是该直线法向分量,也是权值矩阵的某一行向量;b为直线的截距。该直线确定的判定边界将空间内的不同元素划分为正负两类,通过学习得到感知器模型,对于新的新输入向量可预测其输出类别。
学习策略:选取使损失函数值最小的模型参数w和b。损失函数及所有误分类点到超平面的距离之和即为:L=−1∥w∥yi(w∙xi+b)L=-frac{1}{parallelwparallel}y_i(wulletx_i+b)L=−∥w∥1yi(w∙xi+b),其中,C为误分类点组成的训练集,||w||为w的二范数,不影响感知学习算法的最终结果,因此在不考虑的情况下损失函数为:L(w,b)=−∑xi∈Cyi(w∙xi+b)L(w,b)=-sum_{{x}_{iinC}}{y_i(wulletx_i+b)}L(w,b)=−∑xi∈Cyi(w∙xi+b)。
对于给点训练集C,损失函数L(w,b)是w和b的连续可导的非负函数。如果没有误分类点则损失函数的值为零,且当误分类点越少时,误分类点到超平面的总距离就越少,即损失函数的值就越小。
单层感知器模型:单层感知器是最简单的一种人工神经网络结构,包含输入层和输出层。输入层只负责接受外部信息,每个输入节点接收一个输入信号。输出层也称为处理层,具有信息处理能力以及向外部输出处理信息。
网络中有S个感知器神经元,R个输入元素,W为S*R权值矩阵。输出层第i个神经元的输出为yi=f(ni)=f(∑j=1Rwi,jxj+b)y_i=f(n_i)=f(sum_{j=1}^{R}{w_{i,j}x_j+b})yi=f(ni)=f(∑j=1Rwi,jxj+b)。
功能:
1.两输入情况:
输入向量x=(x1,x2)T,该向量在空间上形成一个二维的平面,用该平面来表示输入的样本数据,则输出为
直线方程wiTx+b=0{w}_i^T{x}+b=0wiTx+b=0将二维平面内的样本数据分为两部分,处在直线上方的数据输出结果为+1,下方的为-1。
直线的斜率和截距决定了直线在二维平面内的位置,即感知器的全职和偏置值确定了分界线在样本空间的位置。通过调节感知器的权值和偏置值,总是可以找到一条分界线将二维空间内的样本分为两类。
2.三输入情况:
此时wiTx+b=0{w}_i^T{x}+b=0wiTx+b=0在三维空间内形成一个分界面,钙粉界面将三维空间内的样本数据分为两类,分界面左下方的输出结果为+1,右上方的输出为-1。同理,通过改变感知器的权值和偏置值的大小可以找到一个平面将三维空间内的样本数据分类。
3.n输入情况:
n个输入向量在几何上构成了一个n维空间,方程wiTx+b=0{w}_i^T{x}+b=0wiTx+b=0在空间内形成了一个超平面,通过改变感知器的权值和偏置值的大小,从而改变该超平面的位置,最终可将输入的样本数据分为两类。
总之,单层感知器具有分类功能,其思想就是通过改变感知器的权值和偏置值的大小,改变分界线或分界面的位置,将输入样本分为两类。
学习算法:
基本思想是逐步地将样本输入到网络中,根据输出的结果和理想输出之间的差值来调整网络中的权值矩阵,也就是求解损失函数L(w,b)的最优化问题。采用随机梯度下降法,然后用梯度下降法不断地逼近目标函数的极小值。
极小化目标函数为:minL(W,b)=−∑xi∈Cyi(W∙xi+b)minL({W},b)=-sum_{{x}_{iinC}}{y_i({W}ullet{x}_i+b)}minL(W,b)=−∑xi∈Cyi(W∙xi+b),C为误分类集合。极小化过程不是一次使C中所有误分类点的梯度下降,而是通过迭代实现。其规则为h(t+1)=h(t)−η∇(h)h(t+1)=h(t)-eta abla(h)h(t+1)=h(t)−η∇(h),η(0