博舍

人工智能+医学检验= 人工智能检验标准是什么意思啊

人工智能+医学检验=

图1尿液分析流水线系统

计算机辅助精液分析系统的应用:可跟踪单个精子细胞的活动,分析精子大小和形态,可对精液中的精子密度进行定量测定,还可以对精子活力、活力分级、活动率等参数进行分析,系统检查项目至少满足WHO有关人类精子检测的基本要求,而独特的精子运动参数也是该类设备的分析亮点。

图2精液分析系统

在粪便自动化分析中的应用:通过对标本进行取样、制片和拍摄数字图像,最终采用图像法对粪便中的细胞、结晶、虫卵等成分进行数字化识别判断,还能对粪便的一般性状及常用的化学检查项目如潜血、转铁蛋白、钙卫蛋白进行测定,如果添加轮状病毒、腺病毒和诺如病毒抗体进行测定,则可用于腹泻疾病的筛查。粪便显微镜形态学检验已经初步开启了自动化时代和人工智能应用时代,走在世界相同检验领域的前列。

图3粪便自动化分析仪

在阴道分泌物和宫颈细胞学检验中的应用:仪器将标本处理后注入特定的分析检测板内,通过数字图像系统对标本中出现的有形成分进行数字拍摄和智能识别,从而达到对细胞、霉菌、滴虫等常见成分进行筛查检测。在宫颈细胞学涂片检验的人工智能辅助筛查方面也有一定进展,例如可分析细胞涂片中是否存在病变细胞,可以筛除阴性细胞涂片样本,再将疑似阳性的涂片提交医生再次审核判断,可帮助医生节省大约90%以上的阅片时间,提高诊断效率。

图4阴道分泌物自动分析设备

2血细胞分析的智能化

目前我们所熟识的某品牌数字血细胞分析设备已经在血涂片和体液涂片细胞识别方面已经取得了一定的成功,国内也有类似的产品在研发和应用。设备的分析程序为在已染色的血涂片上,先用10倍物镜头扫描血片的单细胞层并定位白细胞,再转换为50倍特殊油镜头扫描确定单层红细胞层,进行红细胞形态分析和血小板数量评估,继续转换为100倍油镜头后扫描分析定位的白细胞,对白细胞进行分类及异常有核细胞识别与初筛。设备可对红细胞形态进行分类处理,将红细胞划分为血红蛋白含量(颜色)异常、内含物异常、大小不同异常和形态不同异常等数十种形态;白细胞可给出正常白细胞分类,还可进行外周血的异常细胞初筛、原始幼稚细胞初筛、血小板聚集、有核红细胞识别等。仪器还可以完成对脑脊液,浆膜腔积液、肺泡灌洗液等样本的分析,目前已经可以连接到血细胞分析仪的流水线系统中,使血常规计数结果与形态学检测或复检成为一体,甚至可以实施通过网络进行形态学图像远程会诊。

图5血涂片形态学自动阅片系统与血细胞分析仪流水线的密切配合

另一款新型血细胞分析系统是以数字化、形态学和人工智能原理进行细胞分析的检测系统,它需要30μL全血通过喷涂制备血涂片,后进行染色,再行拍摄及数字化细胞,最后进行数字化细胞分类、计数、计算与鉴别等步骤,即可完成血常规中CBC+Diff+Ret的所有检测数据。这种仪器不再采用传统的物理、化学、荧光等染色技术、也不需要鞘流技术,甚至不需要复杂的液体试剂。他它既可给出细胞数量,也能给出细胞的形态学报告和分析结果,其血涂片标本可以保留更长的时间以便回顾性分析和研究,具有独特的优势。

图6数字图像分析原理的血细胞分析系统

图7根据数字图像进行形态学报告审核

3人工智能在微生物检验领域的应用

目前已经有了用于分枝杆菌检验的显微扫描拍摄系统,该系统采用人工智能的检测算法来扫描荧光涂片的高分辨率数字影像,自动对其中的怀疑荧光体进行评分,从而根据国际防痨与肺疾病联合会标准,判断每个视野和涂片的阳阴性,和总体抗酸杆菌密度状态等,智能化的筛检出分枝杆菌,最结果应由有经验的检验者审核确认。仪器可对大量阴性标本和视野筛检过滤,加快了检测速度,降低了劳动强度。

图8分枝杆菌显微镜扫描分析系统

据了解,全球首个微生物质谱云中心已在中国建立。该项目经过3万株菌的蛋白质组生物信息分析,开创了非线性相似性度量的人工智能算法,建立了超过370属2200种7900株的微生物蛋白指纹图谱数据库及全球首个微生物质谱云中心,实现了2200种微生物在培养后5min内快速鉴定的飞行时间质谱系统。目前该数据库已经拓展至8100株,临床验证数量超过15万株。该成果已在包括北京协和医院在内的40余家医院及科研单位开展应用并获得一致好评。这也是在微生物检验领域应用互联网、大数据、云计算及人工智能技术所获得的一项重要成果。

4人工智能在染色体分析中的应用

对制备好的染色体涂片进行扫描拍摄,再通过图像采集模块采集一定数量的染色体核型图,进行数字处理和优化后,通过染色体核型分析系统进行分析。智能化的软件可对人体46条染色体图像进行自动分割,包括将交叉、粘连、重叠的染色体进行自动或手工辅助分割,将相同标号的染色体汇集配对。系统可识别染色体数量、畸变、染色体数目增多/减少和三倍体等突变,对染色体结构畸变,染色体缺失、易位、倒位、插入、重复等常见异常也可初步识别判断。

图9染色体分析设备

5检验结果自动审核与智能化

自动审核是人工智能与检验医学的完美结合,是分析后检验程序标准化、自动化、智能化的飞跃,如今已受到越来越多临床实验室的关注,已经有了一些在临床生化和免疫学检验,血液学检验等领域的应用实践。在强大的LIS和HIS系统支持下,经过精心设定的自动审核系统,集中了检验工作者和临床医师的智慧,将绝大部分能够通过审核的样本进行自动审核,触犯规则的则不通过审核,改由人工审核。随着医疗水平与检验自动化程度的不断提升,医学检验已进入前所未有的大数据应用时代。临床检验报告自动审核专家系统可有效提高检验报告的准确性,大大提升检验报告审核的速度。由北京协和医院检验科牵头的《临床实验室定量检验结果的自动审核程序建立与验证》国家行业标准正在审核中。

图10北京协和医院LIS系统中审核报告界面上通过审核与不通过审核的屏幕界面

6自动采血机器人

一种称为Veebot的自动采血机器人已经在美国出现,国内也有厂家处于研发之中。患者将手臂伸进拱体中,充气的袖套会收缩,将手臂固定住,压缩血流,让血管更容易显现,机器人用红外线相机探测照射手肘内侧,配合超声波与机器视觉技术定位静脉位置,自动分析所拍摄的影像,检查血管构造与内部血液流量,找出最适合采血的血管和位置后,机器人会校准针头,选择最佳角度,迅速将针头穿刺进入血管,通过真空采血管的负压抽取足够量的血液标本,整个流程约1min。采血机器人主要应用了智能交互技术、智能生物识别技术,以及智能导航控制技术,变人工凭经验盲目穿刺为精准可视化穿刺,实现了自动化、标准化、精准化,把医护人员从高频、高难、高危的工作中解脱出来。

图11自动采血机器人

7人工智能在标本自动传输物流系统中的应用

标本的自动传输在许多医院已经成为现实,检验科实验室可以通过轨道或气动管道传输系统、智能化的物流管理系统,从医院各个病区、门诊或急诊、采血窗口迅速、及时获取标本。最快的气动管道传输系统,传输速度可达600m/min。临床医师也可以通过HIS及时了解采血时间、送检时间、检验科接收时间、检测时间、签发时间等信息。在一些医院还有了实验室自动送检运输机器人,它会按预定的路线将窗口接收的标本运送到不同的工作区或不同的操作工位,未来将会有无人机将标本跨建筑、跨楼层送检。智能化的标本自动传输物流系统也是现代化医院所必不可少的配置。

图12高速气动管道物流系统

8人工智能技术在检验医学中的应用设想与展望

在2017年全国“两会”上,国务院总理李克强发表了政府工作报告,指出要加快培育壮大包括人工智能在内的新兴产业,“人工智能”也首次被写入了政府工作报告。在这个“互联网+”的时代,人工智能、大数据、云计算、物联网技术不断渗入医疗领域和大健康领域,笔者认为,一个医院的现代化不仅仅体现在医疗技术能力强、设备先进、管理有效这个层面上,还应体现在信息化和智能化应用方面。笔者从用户的角度对人工智能在医院检验科中的应用做了以下设想。

1.自动化质量控制运行程序及智能化判断:这些辅助设备和程序应该配合自动化分析设备联合使用,实现自动化运行、判断、存储数据、靶值累积、提示报警等功能。

2.人工智能辅助诊断:自动报告审核系统能够将患者治疗方案(特别是化疗和放射治疗)、药物影响因素、标本采集条件、检验项目的不确定度等结果的发展变化与患者具体诊断治疗情况结合进行大数据的综合分析,并给出其发展变化趋势及预后等信息。还可提供该项目在疾病诊断中的敏感性和特异性,及相关检验检查的追加选择建议等。

3.个体化检验诊断提示:对个体化的检验结果进行分析,对相关的各种影响因素进行判断与鉴别,结合大数据对个体检验数据的变化提供干预预警和报警等。建立个体化检验指标的参考区间,随时观察个体检验指标的变化趋势。

4.大数据与临床研究:与临床结合,与多种检验、检查数据结合,进行大数据研究与分析,可以发现某些检验数据与疾病的发生、发展、诊断和变化之间的联系。通过大数据分析可以深度挖掘研究数据,可能获得意想不到的结果。

5.继续提高形态学人工智能设备识别能力,不断提高智能化设备对各种标本的形态学识别能力和正确鉴别能力,继续扩大数字图像数据库,改进算法,增加特征参数,深入学习训练,添加特殊染色,添加其他辅助专业技术等,进行不断改进与提升。而骨髓检查也许是形态学检验中最难以完成的任务,是否可以配合流式细胞术、特殊染色分析、组化分析、基因分析、遗传学检查等多种技术的综合智能分析,给出更科学的诊断报告。

9结束语

医学检验在计算机技术和“互联网+”时代,在人工智能、大数据、云计算、云存储、物联网等技术不断与医疗、大健康行业互相渗透的环境下,以大数据为基础的人工智能模型的建立,将对疾病防控、癌症筛查、病种分布、遗传图谱、基因检测、人体数据分析等带来有价值的发现和应用。在精准医疗愈发受到重视的今天,这些都成为了其中不可缺少的要素,这是实现人工智能应用的重要体现和方向,或许也是未来人工智能+检验医学要走的方向。

张时民

(中国医学科学院/北京协和医学院临床检验诊断学系/北京协和医院检验科)

北京协和医学院临床检验诊断学系血液体液教研室组长,北京协和医院检验科副主任技师;中国医学装备协会检验医学分会细胞形态学自动化分析学组副组长。主要从事临床基础检验工作、教学与科研,同时对检验仪器分析自动化、智能化等有一定研究。发表文章60余篇,主编专著12部。

来源:中华检验医学网、检验医学微信公众平台

作者:张时民返回搜狐,查看更多

人工智能在检验医学的应用与展望

二、检验AI的应用

(一)优化管理

1.检验项目的推荐:基于ML的临床决策系统,可参考患者临床信息及历史检验结果,预测测试前概率,进而指导医生选择检验方案。预计这种方法在保证有效性的前提下,能使越来越多患者获得可负担得起的诊断测试,同时降低医疗成本,据报道仅在美国每年估计可节省50亿美元支出[18]。此外,这种基于大数据的检验AI系统还可帮助临床实验室进行合理的试剂订购,避免遗漏及浪费[19]。

2.实验室的质量控制:越来越多的证据表明,传统的质量控制系统难以在日益复杂的测试环境中发现错误[20,21]。通常,临床实验室使用室内质量控制(internationalqualitycontrol,IQC)样本来监控精密度。然而,并非所有检测项目都有合适的IQC样本;且现有的抽样检测系统无法对整个检测过程进行监测。目前,“移动平均统计质量控制”技术被证明能有效改善上述局面,该技术是在每天实验室检测工作结束后,对属于正常范围的患者测试值取平均值,并输入计算机程序进行质控分析[22]。该方法被证明能有效提高错误的检出率,且特别适合于IQC样本不理想或不可用时的质控[23],在LIS系统中整合此类自动化质控软件将有助于构建实时监测、快速反馈的实验室质量控制体系[24]。

3.提升检验图像结果分析:图像识别是公认的AI最具发展前景的技术。据报道,深度学习催生的AI计算机视觉技术对皮肤癌[3]、乳腺癌[4]和糖尿病视网膜病变[5]等疾病的诊断性能已达到甚至超过专业医生。同样,遵循数字扫描成像、图像特征提取、多层模型训练的范式,检验领域亦可开发针对检验样本图像诊断的全自动数字化图像识别系统。一个典型的例子是CellaVision公司与Sysmex公司合作生产的全自动数字化细胞形态分析系统(简称DI-60系统)[25],该系统是模拟人工在显微镜下对外周血涂片进行镜检的阅片系统,它不仅实现了标本进样、滴加镜油、转换显微镜头、预分类细胞到结果存档的全程自动化,还具有极高的细胞预分类准确性,操作者只需要对预分类结果进行逐项复核。

4.及时、准确的自动审核:患者个体状况千差万别,这就要求检验工作者密切结合临床信息加以综合评估,必要时查询病历或电话追问主治医生,是对其工作经验和责任心的极大考验,也是人工审核的难点。检验AI的个性化自动审核系统可有效改进这种工作方式[26],该系统通过自然语言处理(naturallanguageprocessing,NLP)技术解读LIS和HIS系统对接的共享数据,将患者基础疾病、诊疗方案、药物影响因素、标本采集条件等信息与检验结果对接,同时与历史检验数据对比审核,以判断哪些检验结果与治疗过程相关,哪些结果正确可以上机发布,哪些结果异常需要报警等。

5.智能化的检验报告:在检验自动审核程序中还可提供与临床诊疗相关的选择,如智能解释、检验效能评价、疾病预测、疾病相关因素分析等[27]。在判断检验结果时,可提供某些检验项目在相关疾病诊断中的敏感性和特异性,该指标的进一步应用及相关检查的追加建议等。结合更多的临床资料,还可给临床医生提供诊断选项、治疗方案、发展趋势及预后信息等。面向患者的检验报告除了提供简单的检验结果报告外,还可提供智能检验报告单(包括检验指标变化趋势、风险分析和解释性报告等),以帮助患者更好地了解自身情况。智能的检验AI报告将是检验医学与临床实践最佳的结合。

(二)协助临床医生

1.诊断:基于常规实验室数据的AI模型可在临床工作中辅助医生鉴别诊断。比如Pattanapairoj等[28]开发的C4.5决策树模型,可将胆管癌与其他良性疾病相互区分,诊断准确性达95%。检验AI模型还可提高症状隐匿的恶性疾病的检出率。比如本课题组利用5种ML算法对胰腺癌、慢性胰腺炎、健康人的所有检验指标(1066个)进行筛选分析,最终建立了一个基于18个常规实验室指标的ML鉴别诊断模型,其准确性明显高于传统CA19-9(AUC0.977vs0.817),更重要的是该模型对早期、小型、CA199-阴性、无黄疸及胰腺体尾癌均具有超高的检出率。该模型有望帮助基层医生筛选出更多高风险的胰腺癌患者,并建议患者尽快转诊,早诊早治,以期改善预后。此外,该模型对于临床难以鉴别的胰腺良恶性疾病(如肿块型胰腺炎、CA19-9阴性的胰腺癌等)也达到了极高的鉴别诊断效能,能够辅助医生进行决策。

2.风险预测与治疗:基于实验室数据的AI模型可以对患者进行准确分组,开发与优化早期预警系统。这种预测分析的一种应用是识别出住院风险较高的患者亚组,并应给予及时的干预措施[29]。据报道,一些大型综合医疗系统已开始使用AI自动识别有可能被转入重症监护病房的患者[30]。AI模型还可根据实验室数据向医生建议应做的检查及处理。比如由数十个临床和实验室参数构建的AI模型可预测肝功能不全患儿食管静脉曲张出血的风险(准确性约85%),使高危患儿能够优先进行肝移植,该结果已通过在线应用程序(http://hrs2c2.com)在独立患儿队列中得到验证。最后,基于临床和实验室大数据的预测AI还可用于监视治疗窗口较窄的药物,以评估不良事件的风险。比如Waljee等[31]开发了一个由实验室变量和年龄变量组成的随机森林模型,可将硫嘌呤药物反应者与非反应者有效区分,同时具有明显的临床益处,如减少类固醇治疗、缩短住院时间和降低手术发生率等。

3.预后:目前肿瘤的预后与预测性标志物仅限于少数几个检验指标。如CA19-9是胰腺癌的预后标志物[32];CEA是结肠癌重要的预后指标[33]。然而,这种单一肿瘤标志物的预后预测价值有限,相比之下,ML方法将大大提高对预后的评估效果。Obermeyer和Emanuel[2]研究证据显示,使用ML模型可以准确地识别死亡率接近100%的转移性癌症患者和死亡率低至10%的亚群,预测因子由涉及多个器官的精确数据组成;韩国的研究人员利用深度学习开发了一种预测胃癌患者预后的多参数模型,未来将根据预测结果选择术后个体化的化疗方式[34]。

三、检验AI的前景展望

哈佛大学的Rajkomar等[35]曾在《新英格兰杂志》展现了医学领域ML的前景:几乎所有临床医生作出决策时所蕴含的智慧和数十亿患者的临床结局都应该可以为每位患者的治疗提供指导。也就是说,每项诊断、治疗和决策都应结合集体的经验教训,从而根据患者的所有已知信息做到实时个体化。在这一框架的指引下,检验AI同样可以在未来医疗健康领域具有良好的应用前景。

1.以患者为中心的检验AI:近年来,随着技术的进步,高通量组学数据(包括基因组,转录组,蛋白质组和代谢组学数据等)[36]、即时检验数据(如血糖、电解质、凝血指标、尿微量白蛋白等)[37]、智能可穿戴设备产生的数据等(如每天的步数、心率、血氧饱和度、血压、呼吸频率、睡眠模式)[38]越来越多地通过移动云平台与医院的HIS、LIS等电子数据库相互连接。因此,临床医生需要理解比以往更多的多模态检验数据,随着患者新数据的不断产生,理解这些数据的复杂性逐渐超出医生能力范畴。好在ML技术非常适合利用这些多模态检验数据进行学习、训练、建模。当新的患者进入,通过多模态检验数据训练出的AI产品,可根据患者的个体化数据进行准确的分类和预测,帮助医生更好地进行临床决策(如疾病筛查、危险分级、诊断、治疗及监测等)(图1)。相信未来,这种以“患者为中心”的检验AI将成为寻求真正了解其患者的临床医生必不可少的工具。

图1以患者为中心的检验AI的主要应用

2.个性化健康预防保健体系的构建:近年来,智能可穿戴设备的实时监测、环境感知、通信连接等功能已被大众接受[38]。现有的可穿戴设备包括戴在手腕上的设备(如具心率监测功能的AppleWatch,具血压监测功能的欧姆龙智能手表,可监测癫痫发作的HeartGuide智能手环);可穿戴服装(可预判心脏疾病发作);智能护牙套(可预测脑震荡);电子皮肤传感器等(可监测温度、脉搏、血压、血氧浓度、心律或心电活动)。未来,智能可穿戴设备监测感知的检验指标将更为丰富,包括生化指标、脏器功能、情绪心理、睡眠质量等[39]。随着Internet和基于云功能的技术改善,这些源源不断产生的检验大数据可通过智能手机与个人健康系统相互连接,构建个性化健康预防保健体系,从而实现疾病的早诊早治。

3.慢性疾病的个体化管理:根据《世界人口展望》(2017年修订)的数据,到2050年,60岁及以上老年人数量预计将增加1倍以上(达21亿),与衰老并行的是慢性疾病的增长。到2030年[40],每年因5种主要慢性疾病(癌症、糖尿病、精神疾病、心脏病和呼吸系统疾病)死亡人数预计将增至5200万。在中国,2017年门诊患者数量高达80亿,而每千人配备1.5名医生,医疗资源的不足与慢性疾病的持续增加将是医疗卫生系统必须面临的重要难题。目前,我们正处于一个关键的转折期,需要能够适应未来医疗保健人口需求的成本效益高的检验医学平台,来应对即将来临的慢性疾病浪潮。未来,自动化检验平台和智能化的检验报告系统可以使检验医疗专业人员从重复性工作中解脱出来,将更多的精力转移在难治性疾病的精确诊断和精准治疗。

4.改善医疗不平衡:在中国的卫生保健系统中,初级卫生保健普遍薄弱,缺乏成熟专业知识技能的全科医生;另一方面,三级医院总是人满为患,医生工作过度,医患矛盾频发。为此,强化基层卫生服务能力,使医疗保健的负担从三级医院转移到基层医疗机构一直是“中国医改”的重点之一[30]。值得注意的是,在中国的初级医疗系统中,很少有影像学或病理学检查,实验室检查是最常用的诊断方法。一项全国性的调查结果显示,95.2%(200/210)的社区卫生中心,90.4%(265/293)的乡镇卫生中心可提供常规血液检查或尿液检查[41],而只有1/3的基层医疗中心能提供胸部X线检查,这提示基于实验室检查的AI工具可能为全面改革中国医疗系统提供契机。检验AI的总体目标是使用计算机算法从检验数据中发现有效信息并协助医生进行临床决策[2,31]。我们相信,在基层医疗机构容易推广的检验AI产品可改变基层医生的决策能力,提高他们对许多疾病的诊疗和管理能力。未来,基于体征和实验室检查的诊断AI还可为患者提供初步诊断结果,并建议患者是否前往三级医院进一步诊疗,以期缓解医疗资源的紧张。

四、检验AI研发遇到的挑战

检验AI有着较为广阔的应用前景,但同时面临很多挑战[42]:检验AI诊断模型的建立无法独立开展完成,需要临床科室的病理、影像、手术、用药,预后相关数据佐证和支撑,因此临床科室参与度是很重要的因素。数据的质量是第二个挑战,数据的质量包含临床检测的一致性,比如检测的时间点、检测设备,还有数据的可溯源性。为了全面提升数据质量,保证数据的一致性、准确性、时效性和可用性,我们需要建立以患者为中心的“全数据”,建立高质量的专家级数据库,构建标准化的检验大数据治理体系。传统指标的二次开发和检验AI诊断模型的建立与推广将会改变传统意义上诊断模式,无论是临床医生还是检验专业人员的接受在一定时间内也是这一工作面临的挑战。检验人员改变工作模式,由被动变主动、由技术型向创造型转变也需要一个过程。这种转变对检验人员的知识结构、对检验学科发展方向都提出了全新的要求。检验AI产品转化的申请、应用、监管和法规是后续面临的另一个挑战。目前,医疗卫生系统已开发了药物、医疗器械的上市前产品要求、上市后安全管理监管机制等。然而,AI产品方面还缺少相应法规。作为新兴产业,医疗AI的应用也需要类似的监管机制和法律法规,从而确保系统的安全开发、应用和监测。此外,技术公司必须提供可扩展的计算平台,用于处理大量数据和使用模型;然而,目前他们承担的角色尚不明确。

基于医学领域检验大数据的AI时代才刚刚开始。未来,检验AI将对百万量级人群的大数据进行分析,从中搜集有关健康、疾病的信息。检验AI的推广将会改变检验在临床疾病诊治中的地位和作用模式,实现优质医疗资源下沉,推动医疗更好服务大众。

利益冲突所有作者均声明不存在利益冲突

选自中华检验医学杂志,2019,43(12)

图片来源:pixabay,版权归原作者所有返回搜狐,查看更多

[人工智能

作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客

本文网址:https://blog.csdn.net/HiWangWenBing/article/details/124238930

目录

前言:

第1章模型评估概述

1.1什么是模型评估

1.2模型评估的类型

1.3过拟合、欠拟合

1.4模型泛化能力

第2章常见的分类模型评估指标

2.1混淆矩阵:

2.4召回率recall:

2.5F1-score:主要用于评估模型的稳健性

2.6AUC指标:主要用于评估样本不均衡的情况

2.7AUC

2.8PR曲线

第3章常见的回归模型评估指标(容易理解)

3.1向量的距离

3.2平均绝对误差(MAE)

3.3平均平方误差(MSE)

3.4均方根误差(RMSE)

3.5解释变异

3.6决定系数

第4章常见的聚类模型评估指标

4.1兰德指数

4.2互信息

4.3轮廓系数

前言:

简单的讲,模型评估就是评估训练好的模型的好坏。

本文主要目的是汇总常见的各种指标。

至于每个指标的含义以及各自的代码示例,将在后续的章节详解介绍。

第1章模型评估概述1.1什么是模型评估

模型评估是对训练好的模型性能进行评估,模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。

1.2模型评估的类型

 机器学习的任务有回归,分类和聚类,针对不同的任务有不同的评价指标。按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。

1.3过拟合、欠拟合

(1)欠拟合

 欠拟合(或称:拟合不足、欠配,英文:underfitting)是指模型在训练数据上没有获得充分小的误差.造成欠拟合的原因通常是模型学习能力过低,具体地说,就是模型参数过少或者结构过于简单,以至于无法学习到数据的内在结构和特征.例如,当用一个线性模型去拟合非线性数据时,会发生欠拟合.由此,可以通过增加模型参数和复杂度,提高学习能力,从而解决欠拟合问题.与欠拟合相对应的,是过度拟合.

(2) 过拟合

是指为了得到一致假设而使假设变得过度严格。

避免过拟合是分类器设计中的一个核心任务。

通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

无论是欠拟合还是过拟合,都是模型泛化能力差的表现。 

1.4模型泛化能力

泛化能力(generalizationability)是指机器学习算法对新鲜样本的适应能力。 

机器学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。

规律适用于现有数据,同样也适用于新鲜数据。

第2章常见的分类模型评估指标2.1混淆矩阵:

混淆矩阵是监督学习中的一种可视化工具,主要用于模型的分类结果和实例的真实信息的比较。

矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。

2.2准确率Accuracy:

准确率是最常用的分类性能指标。

Accuracy=(TP+TN)/(TP+FN+FP+TN)

预测正确的数占样本总数的比例,即正确预测的正反例数/总数。

2.3精确率(Precision):

精确率容易和准确率被混为一谈。

其实,精确率只是针对预测正确的正样本而不是所有预测正确的样本。

表现为预测出是正的里面有多少真正是正的。可理解为查准率。

Precision=TP/(TP+FP)

即正确预测的正例数/预测正例总数

2.4召回率recall:

召回率表现出在实际正样本中,分类器能预测出多少。

与真正率相等,可理解为查全率。正确预测为正占全部正校本的比例

Recall=TP/(TP+FN),即正确预测的正例数/实际正例总数

2.5F1-score:主要用于评估模型的稳健性

F值是精确率和召回率的调和值,更接近于两个数较小的那个,所以精确率和召回率接近时,F值最大。很多推荐系统的评测指标就是用F值的。

2/F1=1/Precision+1/Recall

2.6AUC指标:主要用于评估样本不均衡的情况

逻辑回归里面,对于正负例的界定,通常会设一个阈值,大于阈值的为正类,小于阈值为负类。如果我们减小这个阀值,更多的样本会被识别为正类,提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象,引入ROC。根据分类结果计算得到ROC空间中相应的点,连接这些点就形成ROCcurve,横坐标为FalsePositiveRate(FPR假正率),纵坐标为TruePositiveRate(TPR真正率)。一般情况下,这个曲线都应该处于(0,0)和(1,1)连线的上方,如图:

2.7AUC

AUC(AreaUnderCurve)被定义为ROC曲线下的面积(ROC的积分),通常大于0.5小于1。随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值。AUC值(面积)越大的分类器,性能越好,如图

2.8PR曲线

PR曲线的横坐标是精确率P,纵坐标是召回率R。评价标准和ROC一样,先看平滑不平滑(蓝线明显好些)。一般来说,在同一测试集,上面的比下面的好(绿线比红线好)。当P和R的值接近时,F1值最大,此时画连接(0,0)和(1,1)的线,线和PRC重合的地方的F1是这条线最大的F1(光滑的情况下),此时的F1对于PRC就好像AUC对于ROC一样。一个数字比一条线更方便调型。

第3章常见的回归模型评估指标(容易理解)

拟合(回归)问题比较简单,所用到的衡量指标也相对直观。

假设yiyi是第ii个样本的真实值,ŷ iy^i是对第ii个样本的预测值。

3.1向量的距离

(1)欧式距离/几何距离

 欧几里得度量(euclideanmetric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。

在二维和三维空间中的欧氏距离就是两点之间的实际距离。

(2)曼哈顿距离

出租车几何或曼哈顿距离(ManhattanDistance)是由十九世纪的赫尔曼·闵可夫斯基所创词汇 ,是种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和。

图1中红线代表曼哈顿距离,绿色代表欧氏距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离,即d(i,j)=|xi-xj|+|yi-yj|。对于一个具有正南正北、正东正西方向规则布局的城镇街道,从一点到达另一点的距离正是在南北方向上旅行的距离加上在东西方向上旅行的距离,因此,曼哈顿距离又称为出租车距离(出租车在两点之间的行驶距离)

(2)马氏距离

马哈拉诺比斯距离MahalanobisDistance,简称马氏距离,是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化,形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间。

马氏距离(MahalanobisDistance)是一种距离的度量,可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。 

(3)余弦距离

余弦距离(也称为余弦相似度):用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。

向量:多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。

当两个向量是正交(垂直)时,无论其物理距离有多近,其余弦距离始终为最大值cos90°=0.

3.2平均绝对误差(MAE)

 平均绝对误差MAE(MeanAbsoluteError)又被称为l1范数损失(l1-normloss):

3.3平均平方误差(MSE)

平均平方误差MSE(MeanSquaredError)又被称为l2范数损失(l2-normloss):

3.4均方根误差(RMSE)

RMSE虽然广为使用,但是其存在一些缺点,因为它是使用平均误差,而平均值对异常点(outliers)较敏感,如果回归器对某个点的回归值很不理性,那么它的误差则较大,从而会对RMSE的值有较大影响,即平均值是非鲁棒的。

 

3.5解释变异

解释变异( Explainedvariance)是根据误差的方差计算得到的:

3.6决定系数

决定系数(Coefficientofdetermination)又被称为R2。

第4章常见的聚类模型评估指标4.1兰德指数

兰德指数(Randindex)需要给定实际类别信息C,假设K是聚类结果,a表示在C与K中都是同类别的元素对数,b表示在C与K中都是不同类别的元素对数,则兰德指数为:

其中数据集中可以组成的总元素对数,RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。

对于随机结果,RI并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下,指标应该接近零”,调整兰德系数(Adjustedrandindex)被提出,它具有更高的区分度:

具体计算方式参见AdjustedRandindex。

ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。

4.2互信息

互信息(MutualInformation)也是用来衡量两个数据分布的吻合程度。假设UU与VV是对NN个样本标签的分配情况,则两种分布的熵(熵表示的是不确定程度)分别为:

利用基于互信息的方法来衡量聚类效果需要实际类别信息,MI与NMI取值范围为[0,1],AMI取值范围为[−1,1],它们都是值越大意味着聚类结果与真实情况越吻合。

4.3轮廓系数

轮廓系数(Silhouettecoefficient)适用于实际类别信息未知的情况。对于单个样本,设aa是与它同类别中其他样本的平均距离,bb是与它距离最近不同类别中样本的平均距离,轮廓系数为:

对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。

轮廓系数取值范围是[−1,1]

作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客

本文网址:https://blog.csdn.net/HiWangWenBing/article/details/124238930

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇