博舍

人工智能通识 人工智能数学公式是什么意思

人工智能通识

欢迎关注我的专栏(つ•̀ω•́)つ【人工智能通识】【汇总】2019年4月专题

经济学中的基尼系数和决策树中的基尼杂质(不纯度)是不同的概念。

基尼系数Ginicoefficient

基尼指标Giniindex或基尼系数Ginicoefficient是意大利统计学家科拉多·基尼CorradoGini在1912年制定的分布的统计指标。

也有硬把基尼指标称为基尼指数的,从英文上看index和指数无关,应该是翻译的笔误成为习惯了吧。

基尼系数通常被用来衡量经济不平等或收入分配,或者不均匀的财富分配。

基尼系数范围从0(或0%)到1(或100%),0表示完全均衡,1表示完全不均衡。但理论上讲,由于负收入或负财富,超过1的值是可能的。

一个国家,如果每个人的都收入都相等,基尼系数就是0,最均等;如果这个国家1个人拥有全部财富,而其他所有人都一无所有,那么基尼系数就变为1,最不均等。

从上图可以理解基尼系数的数学含义。横向是人口百分比例,从左侧0个人到右侧100%全国人口;竖向是人口所对应的财富占比。比如说图中深蓝色线玻利维亚Bolivia国家的50%人口拥有19.52%的财富;而在海地Haiti这个国家同样50%的人口却只拥有11.89%的财富(图中未标示);感性上说玻利维亚更均等些。

如果某个国家的财富分布是最上面的浅蓝色直线那样,那么它正好是50%的人拥有50%的财富,60%的人拥有60%的财富...人均财富相等的完美状态。

基尼系数就是指完美均等斜线下面的面积L,减去曲线下的面积C,然后再除以A的值,即:

很明显它的值在0到1之间,0即表示和直线重合,1就是极端不均等状态。

这条描述人口和财富比例变化的曲线就叫做洛伦兹曲线,它是美国经济学家马克斯洛伦兹在1905年创造的。

错误分类率IncorrectClassification

假设我们有三种水果共12个,其中三个苹果Apple,三个香蕉Banana,六个樱桃Cherry,表示为下:

如果我们从其中取出任意一个草莓,然后随机的给它贴一个种类标签,“苹果”,“香蕉”或者“草莓”,那么,我贴错的可能性是多少?——我有50%的可能性贴错,或者是我有可能贴对。

同样,任意取一个苹果,随机贴标签,错误的概率就大很多,会搞错,取香蕉任意贴的错误率也是。

好了,我们在考虑任意在12个水果里面取一个,会取到樱桃的概率是多少?,一半的概率。同样取到苹果或者香蕉的概率都是。

综上,对于3个A,3个B和6个C的一组数据,随机分类的错误率是下面的算式:

先不急着计算,仔细看就会注意到,,这意味着,某个种被随机贴错标签的概率等于1减去这个种类可能被随机取到概率,即:

基尼杂质GiniImpurity

在机器学习中提及的Gini基尼其实是指基尼杂质GiniImpurity或者说是基尼不纯度,当然也经常被稀里糊涂的称之为基尼系数Giniindex。

在这里,基尼杂质就是指所有分类的可能错误分类率之和,按照上面水果的例子来说,就是上面的算式的结果:

计算基尼杂质的公式就是将所有分类占比乘以分类错误率之积叠加:

这里的J是指所有可能分类的总数,即有J个种类,在上面水果分类中J=3。这里的k表示的是错误贴上去的标签。

我们接下来对这个公式简化一下:

注意:

利用了我们上面说到的;,苹果、香蕉、樱桃所有种类的可能性之和当然是1;

最后我们把基尼杂质公式写下来就是:

怎么讲?还是以12水果的例子来看:

与我们上面的方法一致。

属性的基尼杂质

上面我们计算的是系统最终输出的基尼杂质,下面我们来看一下在上一篇信息增益-3中的女生择偶数据的例子:

“颜值属性”的基尼杂质怎么计算?我们从基尼杂质的基本概念出发,先看颜值高的分类情况:

颜值只有两个类别,高或低;共8个高颜值,随机选一个,选中高的概率;选到高,然后随机贴,50%概率贴“嫁”,有5个搞错,那么错误率是选到高,然后随机贴,50%概率贴“否”,有3个搞错,那么错误率是

所以高分类的分类错误率是:

我们再看颜值低的分类情况:

共4个低颜值,随机选一个,选中低的概率;选到低,然后随机贴,50%概率贴“嫁”,有1个搞错,那么错误率是选到高,然后随机贴,50%概率贴“否”,有3个搞错,那么错误率是

所以低分类的分类错误率是:

所以总的基尼杂质是:

注意,基尼杂质越高就代表越容易分类错误,也就越不好,所以应该优先选择杂质低的属性作为决策树的上层分类节点。

基尼杂质和AUC、ROC指标有着很多相似特性,后续我们再继续学习。

欢迎关注我的专栏(つ•̀ω•́)つ【人工智能通识】

每个人的智能新时代

如果您发现文章错误,请不吝留言指正;如果您觉得有用,请点喜欢;如果您觉得很有用,欢迎转载~

END

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇