网站首页 > 博客文章 正文
当一个模型构建完成之后,我们可以通过几个不同的性能指标来衡量分类模型的相关性能,常用的分类性能指标有准确率(precision)、召回率(recall)和F1分数(F1-score)。
一、混淆矩阵
混淆矩阵(confusion matrix):是展示分类学习算法的一种性能矩阵(方阵),包括分类器预测结果真正(true positive)、真负(true negative)、假正(false positive)、假负(false negative)的数量,如下图:
真正:实际是正类别,预测也是正类别
假负:实际是正类别,预测成了负类别
真负:实际是负类别,预测也是负类别
假正:实际是负类别,预测成了正类别
通过sklearn的confusion_matrix函数和matplotlib来实现混淆矩阵的绘制
其中,1为正类别(恶性),0为负类别(良性)。通过混淆矩阵可以发现,模型正确的预测了71个负类别和39个正类别,其中将1个负类别错误的预测为了正类别,将3个正类别错误的预测为了负类别。
二、模型的准确率和召回率
预测误差(error,ERR)和准确率(accuracy,ACC)都表示了误分类样本数量的相关信息,其中ERR=1-ACC。预测误差,为预测错误样本的数量与所有样本数量的比值。准确率,为预测正确样本的数量与所有样本数量的比值。计算公式如下:
对于类标数量不均衡的分类问题来说,真正率(TPR)与假正率(FPR)也是非常有用的性能指标。真正率表示预测与实际都为正类别的样本数量与实际正样本数量的比值,假正率表示预测为正类别实际为负类别的样本数量与实际负类别的样本数量的比值。计算公式如下:
在对肿瘤分类模型分析中,主要关注的是正确的检测出恶性肿瘤的病人(即真正率),这样能够使得病人即使的得到救治。降低良性肿瘤被错误预测为恶性肿瘤(假正率)的数量固然重要,其实对病人影响不大。与假正率相反的真正率样本中,包含了有关正确识别出来恶性肿瘤样本的信息。
准确率(precision,PRE)和召回率(recall,REC)与真正率和真负率相关的性能评价指标,召回率和真正率的含义相同,计算公式如下
除了准确率和召回率,还有F1分数,是利用准确率和召回率的组合的一种性能评价指标
通过sklearn来计算准确率、召回率和F1分数
注意:在sklearn中将正类类标标识为1,。如果,需要指定一个不同的正类标,我们可以通过make_scorer函数来构建一个评分函数,通过设置GridSearchCV中的scoring参数,设置为我们构造的评分函数。
三、绘制ROC曲线
受试者工作特征曲线(receiver operator characteristic,ROC)是基于模型的假正率和真正率等性能指标进行分类模型选择的有用工具,假正率和真正率可以移动分类器的分类阈值来计算。ROC曲线的对角线表示的是随机猜测,比如说某件事情发生或者不发生,那么我们随机猜中的概率为0.5。如果ROC曲线在对角线下,就表示分类器的性能比随机猜测还差。最好的分类器,其真正率是1,假正率是0,对应的ROC曲线是一条横轴为0与纵轴为1组成的折线。ROC曲线下的区域(area under the curve,AUC),用来表示分类模型的性能。
计算ROC在AUC上的得分,也就是ROC下的面积
四、多分类的评价标准
在多分类系统中,常用的性能指标有宏(macro)均值和微(micro)均值,以k类分类系统中的准确率为例,计算公式如下:
当我们同等看待每个实例或每次预测的时候,微均值是有用的,当我们同等看待每个类别的时候,宏均值是有效的。如果,样本中的类别是不均衡的,在计算宏均值的时候,需要以各类别中样本的数量作为评分的权值。
- 上一篇: 机器学习的常见指标(机器学习性能指标)
- 下一篇: 「卡尔闲谈」风控模型常用的评估指标介绍
猜你喜欢
- 2024-10-29 模型评估(一)(你应该知道的模型评估的五个方法)
- 2024-10-29 精度是远远不够的:如何最好地评估一个分类器?
- 2024-10-29 Python机器学习理论与实战 第二章 Logistic回归模型(下)
- 2024-10-29 R数据分析:ROC曲线与模型评价实例
- 2024-10-29 模型评估与模型监控——AUC 计算示例
- 2024-10-29 为机器学习模型选择正确的度量评估(第二部分)
- 2024-10-29 从另外一个角度解释AUC(从另一个角度去看问题)
- 2024-10-29 机器学习算法评估方法+Spring学习笔记
- 2024-10-29 你真的了解模型评估与选择嘛(模型评价的术语)
- 2024-10-29 机器学习中的评价指标(机器学习模型的评价指标有哪些)
你 发表评论:
欢迎- 06-23MySQL合集-mysql5.7及mysql8的一些特性
- 06-23MySQL CREATE TABLE 简单设计模板交流
- 06-23MYSQL表设计规范(mysql设计表注意事项)
- 06-23MySQL数据库入门(四)数据类型简介
- 06-23数据丢失?别慌!MySQL备份恢复攻略
- 06-23MySQL设计规范(mysql 设计)
- 06-23MySQL数据实时增量同步到Elasticsearch
- 06-23MySQL 避坑指南之隐式数据类型转换
- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)