人工智能如何助力病虫害预测预报
原标题:人工智能如何助力病虫害预测预报?粮食安全是维护经济发展、社会稳定最重要的压舱石。任何一个时期,切实保障国家粮食安全,不断提高粮食安全保障水平,都具有重要的现实意义和战略意义。但是威胁粮食安全的因素却从未消失,气候异常、自然灾害,其中尤以病虫害因素最为普遍,对粮食安全造成巨大的影响。
行业痛点
据统计,近5年我国农作物病虫害年均发生面积65亿亩次、防治面积80亿亩次,经病虫害有效防治,每年挽回粮食产量损失2000亿斤左右,占粮食总产量的六分之一。也就是说,病虫害防治的意义不啻于拥有3亿亩隐形耕地。
传统病虫害测报以人工测报为主,“靠人眼、靠手摸、靠腿跑”,费时耗力工作量大,而且覆盖面积小,所有信息都需要人工收集后再进行分析,然后才能发布防治方案,无论是效率还是效果都受到影响。另外,随着基层人员的日益减少,测报工作将愈发难以支撑。目前,针对病虫害的主要方式还是采用喷洒化学农药,但大量使用农药不仅会造成环境污染,而且对于作物品质也会有影响,无法达到绿色防治的要求。
政策导向
为保障粮食安全,国家对于病虫害防治一直高度重视,强调“中国人的饭碗任何时候都要牢牢端在自己手上。”与此同时国家也曾多次出台相关政策给予指导。2020年5月1日施行的《农作物病虫害防治条例》提出,“国家鼓励和支持开展农作物病虫害防治科技创新、成果转化和依法推广应用,普及应用信息技术、生物技术,推进农作物病虫害防治的智能化。”
病虫害的准确测报是有效开展防治措施的重要前提。在政策指导先行的影响下,催生了病虫害预测和防治智能化热潮,人工智能技术应用成为一种新趋势。托普云农基于人工智能技术,对病虫害预测和防治领域的探索也从未止步。
智能防治
托普云农作为数字农业领域的先行者,在行业兴起之初便优先布局,目前产品已经覆盖产业链上多个领域,现有产品不仅市场份额大,而且有成熟的技术体系,已为行业内提供众多解决方案,积累了丰富的实践经验。在病虫害预测和防治领域,托普云农利用人工智能技术帮助农民更高效、更方便地解决农作物“看病问诊”的难题,让植保和农业生产变得更轻松。
展开全文托普云农研发的智能病虫害监测预警系统,由智能虫情测报灯、智能孢子捕捉系统等智能装备组成,通过图像识别、物联网等人工智能手段自动完成虫情等信息数据采集,由云平台进行数据分析,根据分析结果对病虫灾情及时监测预警。系统对害虫虫体可进行自动标记和识别,可对害虫进行分类计数,目前可识别种类多达100多种,识别准确率高于85%。
随着时间延伸和数据叠加,即可生成区域内的虫情趋势分析图,植保管理人员只需要查阅后台分析图表,即可做出虫情趋势研判,进而制定防治策略。目前该系统已经成功应用于许多省市的农业示范项目,为虫情和灾情的测报预警提供了有效的参考依据,协助指导监测区域内病虫害的统防统治。
如在浙江省,智能病虫害监测预警系统通过对2018-2020年数据的统计,绘制出大螟和二化螟的历年虫量趋势图,总结分析出各自的虫情爆发期,对于分时段开展针对性害虫防治有很大的参考价值,可以有效提高害虫击杀率。
智能病虫害监测预警系统在浙江省的应用案例
未来探索
随着农村劳动力转移和农业适度规模经营发展,专业化病虫害预测和防治的重要性日益凸显。当前病虫害预测和防治智能化领域已实现较快发展,但仍然存在部分问题,如病虫害的雷达监测系统还没有成网;在病虫害数据预报、预防等方面,还面临巨大的工作量。
未来,托普云农将利用人工智能技术,拓展现有产品功能并完成优化,实现更全面的数据监测。同时研发覆盖新型病虫害系统产品,丰富产品链,如害虫性诱智能测报系统,实现更精准防治。在规模化防治上,实现从单片独立区域监测到全国统一联网监测,形成国、省、市县的多层联动,实现病虫害的预测预报,指导统防统治工作的有效落实。
智能化病虫害预测和防治是信息技术赋能农业生产的积极探索,构筑了田间病虫害防治的“数字防火墙”。托普云农将持续利用人工智能技术为粮食安全保驾护航,为农业现代化提供坚实的技术支撑!返回搜狐,查看更多
责任编辑:智能侦查和人工智能技术的融合应用
数据搜索,在人工智能侦查领域,数据搜索是最简单也是最基础的侦查方法之一,主要包括数据库搜索、互联网搜索、电子数据搜索等智能搜索渠道,通过对侦查机关已有的各种信息数据库及社会行业的数据库(例如)进行数据检索,将目标数据与关联数据进行实时关联比对,甚至可以通过采取恢复、提取等手段获取有关数据并进行进一步甄别,完成人工智能侦查的数据基础工作,以供侦查指挥中心使用。
数据深度分析,此处的数据深度分析包含了数据碰撞、数据画像等数据深入分析技术,选取一定时空范围内的相关数据集合进行两两碰撞或多个数据同时碰撞,匹配出的交叉数据就是往往能够说明关联性或同一性的节点数据,此外,依靠人工智能视角下的统计学、分布式计算、并行计算等多种技术进行的专门数据挖掘也进一步加深了数据的分析质量,对海量数据进行多次分析,透析现象背后隐藏的深层次规律,为侦查活动提供了关联性分析、聚类分析、时序分析、异常分析等实践可能,最后,借鉴了"大数据用户画像"商业营销模式的侦查数据画像对犯罪嫌疑人进行画像,将嫌疑人特征转化为虚拟数据,增加信息交换环节,有助于侦查人员更详尽的了解其个人背景更好地完成侦查任务。
数据广度分析则是衍生性思维下的产物,由于侦查机关面对的是信息不对称的侦查环境,必须要最大限度开发所有可以利用的资源,侦查活动通过社会网络分析将复杂的犯罪嫌疑人人际关系变为形象的网络图形,有助于侦查人员了解组织犯罪活动中的分工关系并能清晰地发现犯罪组织中的核心人物等人物设定;数据时空地图,人工智能侦查的预测性思维要求将犯罪活动进行更为深入的剖析,犯罪时空分布分析将犯罪地理空间特征、时间特征、人群特征、犯罪类型等因素相结合,得出犯罪的高发热点、高发时段的趋势和变化,为预测性侦查发展起到了极大帮助。
(二)刑事证据智能获取
随着犯罪行为日益繁复,现场勘查的取证难度也与日俱增,传统侦查活动中的刑事照相技术难以适应当下多变的犯罪现场取证要求。传统刑事照相技术中的选择能反映全局的高处进行拍摄的技巧在许多不具备条件的场所无法施展,更有镜头的视域受地域所限拼接镜头无法反应全局等难题,人工智能侦查成为了解决上述问题的有效手段,除去刑事照相,人工智能侦查中的智能设备还可以代替人工进行具体物品的提取等实物性操作。
在面临例如连环爆炸案件等大范围的勘查现场时,传统刑事照相技术通常采用逐个区域拍摄的方式进行证据固定,然而这种拍摄方式却不能很好地展示多个现场的分布情况及焦点证据的位置关系,利用人工智能侦查中无人机飞行平台的高空拍摄技术便可解决取证技巧的硬性短板。其次,无人机飞行平台能够收集到遗落在某些不宜由勘查人员直接进入的有毒害场所内的证据,此举既能有效保障人身安全,又能采集到犯罪现场的一手资料。不光在有毒害场所内的勘查难以进行,在某些高层建筑的外围发生的火灾案件及爆炸案件的取证工作单凭依靠传统刑事照相手段也是难以为继,依靠无人机系统搭载的云台设备,提升摄像的稳定性和全方位性,多角度进行远中近程拍摄,反应完整的起火路径和火势情况,能更准确地对起火点取证并付辅助起火原因的分析。
(三)刑事情报智能搜集
犯罪行为愈发呈现出智能化趋势,而犯罪的智能化则强烈呼唤侦查措施的科学化,从侦查情报现代化的原动力上讲,侦查情报信息的搜集措施科技化是侦查工作由传统工业社会向现代化智能化环境嬗变的必然要求,侦查布控与情报搜集是与犯罪行为最密切相关的内容,犯罪分子在实施犯罪行为后一般会沿着一定的路径逃离,也有部分犯罪分子选择就近隐匿。虽然目前的"天网工程"等视频监控已经趋于完善,但在某些视线死角、设备损坏或者在某些没有布局过视频监控系统的荒郊野外则无法进行有效的情报搜集或证据固定;已有的监控设备仍旧停留在传统信息化侦查的区间,缺乏与人工智能结合的高科技侦查手段,例如虹膜识别、人脸识别、语音识别等;在某些人口密集、地形复杂不能立即实施抓捕的地方,就需要利用人工智能侦查中的无人机平台,在制高点迅速完成地形的勘查,并通过遥感技术将主要的信息传回指挥中心由指挥团队进行分析研判,以图像信息为支撑提高决策的科学性,实施全面精确的侦查布控。另外,侦查指挥员可以根据无人机系统实时传输回的现场状况调整警力布置、实施精确抓捕,控制不必要的警力浪费。
(四)犯罪嫌疑人智能缉捕
人工智能侦查带来的地图分析技术、侦查四维世界构建等功能模块将传统的平面侦查活动推向空中力量、陆基力量相互配合的立体化作战模式,同时也为侦查活动提供了更确切的时间回溯可能性。在西班牙已经出现利用无人机追捕嫌疑犯的侦查方式,刑事案件的侦查过程中存在着诸多类似缉捕、扣押等需要应用控制手段的侦查活动,利用搭载制服设备的无人机平台可以更好地配合侦查人员控制犯罪分子。例如遇到侦查人员无法进入既定区域进行封锁通信防止犯罪分子通风报信的情况时,利用数台搭载电磁干扰设备的无人机系统,快速到达现场进行电磁干扰,以达到预期目的;在未来的侦查活动中甚至可以为无人机配备相应的轻型攻击武器,以配合地面侦查人员更好地开展地面阵地控制活动或捕获敌对势力的无人机设备。
三、智能侦查的主要功能
逃犯识别和预警:基于人脸识别的照片比对系统,协助公安快速对嫌疑人的身份确认,减少"人海战术"的低效率,在追逃、破案等中发挥巨大的能量。
疑似涉恐行为识别与预警:基于人员特征和异常行为,识别疑似涉恐行为和人员,实时预警和布控。
涉恐人员识别和预警:主要在边检站、高速出入口(尤其是跨省处),识别车内涉恐人员,实时预警,协助公安布控。
人群密度监控:监控人员密集公共场所,设置警戒阈值,当人口员密度达到阈值,系统自动预警,助力于公安机关及时疏散人群。
目击者描述排查:获得现场目击者对嫌疑人的形象描述后,完成人像合成,并将人像图片传到后台系统进行排查。
海量视频检索:匹配图片、视频、特征等,快速从海量的视频中检索出目标线索。
四、智能侦查的主流产品
(一)AI视频监控类产品
1.助力公安高效侦查破案,AI摄像头成"侦查专家"
该类型产品由一般分布在飞机场、火车站、公共道路等公共场所的视频监控摄像头,以及后台视频数据存储、分析设备组成,可提供人脸抓拍、布控报警、属性识别、统计分析、重点人员轨迹还原等功能。代表产品有商汤科技的人脸布控实战平台SenseFace、旷视科技的洞鉴人像系统等。
在公安机构建设的天网监控系统中,传统的摄像头只能够解决视频的储存和回放,公安人员一旦使用这些监控设备侦查破案,需要定位和查找视频录像中的人、车辆、物等目标相关信息,然而这需要投入大量的人力以及精力。
因为目前要实现全方位的实时监控,调度指挥,视频录像中的可疑车辆检索查证,必须得依靠公安相关工作人员时刻紧盯屏幕,监视所有摄像头里的实况视频,以及相关视频录像的回放。同时这也难以避免因为工作人员长时间紧盯屏幕和疏忽,导致遗漏某些稍纵即逝的重要消息,从而影响公安人员自身的破案效率。
在这种情况下,公安机构急需一种新的技术来帮助自身打破通过人为视频监控检索消息的壁垒。而人工智能的四个核心能力,语音、图像、自然语言理解和人物画像,恰好满足公安人员通过摄像头视频监控检索信息的诉求。
通过人工智能四大核心技术,当公安天网监控系统的摄像头能够对视频数据进行智能分析,实时分析视频监控内容,检测运动对象,识别人、车属性信息,将存在可疑点视频传递到数据库进行单独存储,同时还能提取视频录像中犯罪现场周边可疑的人、车、物等目标相关信息,通过人脸识别技术实现一对一的图像对比,快速的查找可疑目标资料信息,定位可疑目标位置,生成结构化的语义描述反馈给公安工作人员,这将大大提高公安人员侦查破案的效率。犯罪嫌疑人的轨迹锁定原来可能需要几天时间,在AI摄像头的帮助下缩短到几个小时就能协助公安人员快速破案抓获犯罪嫌疑人,让罪犯无所遁形。
2.利用人工智能"预测"犯罪,协助公安人员预防犯罪事件
社会犯罪事件频频上演,将犯罪嫌疑人缉拿归案是公安机构的本职工作,但是某种意义上而言维护治安,及时制止犯罪事情的发生更加值得重视,如何有效的预防犯罪事件的发生?这几乎成为了每个国家公安机构心头的焦虑。
那么AI摄像头是否能够协助公安人员预防犯罪事件发生呢?通过人工智能技术识别人的面部表情、行为识别以及步态分析,协助警察提前进行预测分析犯罪行为做好制止工作,AI摄像头的作用也十分极具想象力。
例如通过AI摄像头建立一个面部识别系统,根据每一天某人去过哪些地方、有哪些行为动作,给他设置犯罪风险评级,然后AI摄像头将预测结果告知警方。比如说,生活中一个人去买菜刀并不可疑,但是如果同一个人买完菜刀之后又同时去买了一把锤子和一个袋子,那么这个人的可疑评级就会因此上升,一旦分值超过警戒线,AI摄像头就会发出警报提醒公安部门密切关注此人,提前预判制止犯罪事件发生。
(二)身份核验类产品
身份核验类产品一般安装在各类场所的出入口位置,能够将采集的人像图片,与其所持有效身份证件的照片进行比对,不仅可有效核对人、证是否一致,还可将核对的身份信息与后台数据库碰撞比对,实现"黑名单"的实时报警,从而有效助力公安机关身份核查、刑事侦查、安全检查等工作,极大地提升工作效率,并降低警力投入。代表产品有海康威视的人证访客一体机、商汤科技的视图情报研判系统SenseTotem、旷视科技的人证核验一体机、海鑫科金的身份核验系列智能设备自助式人员信息查控闸机等。
(三)视频结构化类产品
该类产品通过对视频内容进行结构化处理,提供基于分析结果的以图搜图、画图搜索、实时轨迹追踪等功能。代表产品有商汤科技的视频结构化解析服务器SenseVideo-A、旷视科技的视频结构化系统、深醒科技的视频结构化分析管理系统等。随着信息化、大数据的纵深发展,以"数据+智能"为关键要素的现代化侦查打击模式不断形成完善,人工智能正在从意识到实战加快对传统侦查办案工作的"智能化改造"。人脸识别、虹膜识别、步态识别等人工智能技术将深刻改变公安机关抓捕犯罪嫌疑人的工作质态,融入犯罪倾向分析、案件特征分析等功能的人工智能系统,可以自动搜集各类信息数据并智能分析关联要素,侦查办案更加高效化、智慧化。
人工智能的发展,为构造智慧警务提供了有力条件,有利于拓展现代警务功能、促进警务机制改革和提升警务管理精细化水平。作为创新发展的强引擎,人工智能推动公安工作实现了更高水平的信息化、智能化和现代化。
(四)无人机产品
在反恐侦察中,无人机技术的发展为警方反恐提供了另一种可能:无人机可以迅速飞往暴恐区域,对目标情况进行306°立体化监控,将犯罪分子人数、规模等情况传回指挥中心,为反恐部署提供参考。同时无人机可以进行不间断的画面拍摄,并将犯罪分子动态实时传回指挥中心,配合公干干警进行迅速的抓捕行动。而且在事后对于恐怖分子或者疑犯进行抓捕或者甄别的时候,无人机高清晰的图像能够为警方提供手直观的宝贵资料。返回搜狐,查看更多
[人工智能
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客
本文网址:https://blog.csdn.net/HiWangWenBing/article/details/124238930
目录前言:第1章模型评估概述1.1什么是模型评估1.2模型评估的类型1.3过拟合、欠拟合1.4模型泛化能力第2章常见的分类模型评估指标2.1混淆矩阵:2.4召回率recall:2.5F1-score:主要用于评估模型的稳健性2.6AUC指标:主要用于评估样本不均衡的情况2.7AUC2.8PR曲线第3章常见的回归模型评估指标(容易理解)3.1向量的距离3.2平均绝对误差(MAE)3.3平均平方误差(MSE)3.4均方根误差(RMSE)3.5解释变异3.6决定系数第4章常见的聚类模型评估指标4.1兰德指数4.2互信息4.3轮廓系数前言:简单的讲,模型评估就是评估训练好的模型的好坏。
本文主要目的是汇总常见的各种指标。
至于每个指标的含义以及各自的代码示例,将在后续的章节详解介绍。
第1章模型评估概述1.1什么是模型评估模型评估是对训练好的模型性能进行评估,模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
1.2模型评估的类型机器学习的任务有回归,分类和聚类,针对不同的任务有不同的评价指标。按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。
1.3过拟合、欠拟合(1)欠拟合
欠拟合(或称:拟合不足、欠配,英文:underfitting)是指模型在训练数据上没有获得充分小的误差.造成欠拟合的原因通常是模型学习能力过低,具体地说,就是模型参数过少或者结构过于简单,以至于无法学习到数据的内在结构和特征.例如,当用一个线性模型去拟合非线性数据时,会发生欠拟合.由此,可以通过增加模型参数和复杂度,提高学习能力,从而解决欠拟合问题.与欠拟合相对应的,是过度拟合.
(2) 过拟合
是指为了得到一致假设而使假设变得过度严格。
避免过拟合是分类器设计中的一个核心任务。
通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
无论是欠拟合还是过拟合,都是模型泛化能力差的表现。
1.4模型泛化能力泛化能力(generalizationability)是指机器学习算法对新鲜样本的适应能力。
机器学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。
规律适用于现有数据,同样也适用于新鲜数据。
第2章常见的分类模型评估指标2.1混淆矩阵:混淆矩阵是监督学习中的一种可视化工具,主要用于模型的分类结果和实例的真实信息的比较。
矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。
2.2准确率Accuracy:
准确率是最常用的分类性能指标。
Accuracy=(TP+TN)/(TP+FN+FP+TN)
预测正确的数占样本总数的比例,即正确预测的正反例数/总数。
2.3精确率(Precision):
精确率容易和准确率被混为一谈。
其实,精确率只是针对预测正确的正样本而不是所有预测正确的样本。
表现为预测出是正的里面有多少真正是正的。可理解为查准率。
Precision=TP/(TP+FP)
即正确预测的正例数/预测正例总数
2.4召回率recall:召回率表现出在实际正样本中,分类器能预测出多少。
与真正率相等,可理解为查全率。正确预测为正占全部正校本的比例
Recall=TP/(TP+FN),即正确预测的正例数/实际正例总数
2.5F1-score:主要用于评估模型的稳健性F值是精确率和召回率的调和值,更接近于两个数较小的那个,所以精确率和召回率接近时,F值最大。很多推荐系统的评测指标就是用F值的。
2/F1=1/Precision+1/Recall
2.6AUC指标:主要用于评估样本不均衡的情况逻辑回归里面,对于正负例的界定,通常会设一个阈值,大于阈值的为正类,小于阈值为负类。如果我们减小这个阀值,更多的样本会被识别为正类,提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象,引入ROC。根据分类结果计算得到ROC空间中相应的点,连接这些点就形成ROCcurve,横坐标为FalsePositiveRate(FPR假正率),纵坐标为TruePositiveRate(TPR真正率)。一般情况下,这个曲线都应该处于(0,0)和(1,1)连线的上方,如图:
2.7AUCAUC(AreaUnderCurve)被定义为ROC曲线下的面积(ROC的积分),通常大于0.5小于1。随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值。AUC值(面积)越大的分类器,性能越好,如图
2.8PR曲线PR曲线的横坐标是精确率P,纵坐标是召回率R。评价标准和ROC一样,先看平滑不平滑(蓝线明显好些)。一般来说,在同一测试集,上面的比下面的好(绿线比红线好)。当P和R的值接近时,F1值最大,此时画连接(0,0)和(1,1)的线,线和PRC重合的地方的F1是这条线最大的F1(光滑的情况下),此时的F1对于PRC就好像AUC对于ROC一样。一个数字比一条线更方便调型。
第3章常见的回归模型评估指标(容易理解)拟合(回归)问题比较简单,所用到的衡量指标也相对直观。
假设yiyi是第ii个样本的真实值,ŷ iy^i是对第ii个样本的预测值。
3.1向量的距离(1)欧式距离/几何距离
欧几里得度量(euclideanmetric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。
在二维和三维空间中的欧氏距离就是两点之间的实际距离。
(2)曼哈顿距离
出租车几何或曼哈顿距离(ManhattanDistance)是由十九世纪的赫尔曼·闵可夫斯基所创词汇 ,是种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和。
图1中红线代表曼哈顿距离,绿色代表欧氏距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离,即d(i,j)=|xi-xj|+|yi-yj|。对于一个具有正南正北、正东正西方向规则布局的城镇街道,从一点到达另一点的距离正是在南北方向上旅行的距离加上在东西方向上旅行的距离,因此,曼哈顿距离又称为出租车距离(出租车在两点之间的行驶距离)
(2)马氏距离
马哈拉诺比斯距离MahalanobisDistance,简称马氏距离,是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化,形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间。
马氏距离(MahalanobisDistance)是一种距离的度量,可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。
(3)余弦距离
余弦距离(也称为余弦相似度):用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。
向量:多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。
当两个向量是正交(垂直)时,无论其物理距离有多近,其余弦距离始终为最大值cos90°=0.
3.2平均绝对误差(MAE)平均绝对误差MAE(MeanAbsoluteError)又被称为l1范数损失(l1-normloss):
3.3平均平方误差(MSE)平均平方误差MSE(MeanSquaredError)又被称为l2范数损失(l2-normloss):
3.4均方根误差(RMSE)RMSE虽然广为使用,但是其存在一些缺点,因为它是使用平均误差,而平均值对异常点(outliers)较敏感,如果回归器对某个点的回归值很不理性,那么它的误差则较大,从而会对RMSE的值有较大影响,即平均值是非鲁棒的。
3.5解释变异
解释变异( Explainedvariance)是根据误差的方差计算得到的:
3.6决定系数决定系数(Coefficientofdetermination)又被称为R2。
第4章常见的聚类模型评估指标4.1兰德指数兰德指数(Randindex)需要给定实际类别信息C,假设K是聚类结果,a表示在C与K中都是同类别的元素对数,b表示在C与K中都是不同类别的元素对数,则兰德指数为:
其中数据集中可以组成的总元素对数,RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。
对于随机结果,RI并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下,指标应该接近零”,调整兰德系数(Adjustedrandindex)被提出,它具有更高的区分度:
具体计算方式参见AdjustedRandindex。
ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。
4.2互信息互信息(MutualInformation)也是用来衡量两个数据分布的吻合程度。假设UU与VV是对NN个样本标签的分配情况,则两种分布的熵(熵表示的是不确定程度)分别为:
利用基于互信息的方法来衡量聚类效果需要实际类别信息,MI与NMI取值范围为[0,1],AMI取值范围为[−1,1],它们都是值越大意味着聚类结果与真实情况越吻合。
4.3轮廓系数轮廓系数(Silhouettecoefficient)适用于实际类别信息未知的情况。对于单个样本,设aa是与它同类别中其他样本的平均距离,bb是与它距离最近不同类别中样本的平均距离,轮廓系数为:
对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。
轮廓系数取值范围是[−1,1]
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客
本文网址:https://blog.csdn.net/HiWangWenBing/article/details/124238930