网站首页 > 博客文章 正文
风控模型建立之后,必须对风控模型的效果进行评估。在分类模型评估中,最常见的评估标准有KS曲线、ROC曲线、AUC值等。那么她们分别的意思和用途是什么呢?以下为卡尔数科风控总监介绍的全部内容。
01
KS曲线
KS(Kolmogorov-Smirnov):用于评估模型的风险区分能力,指标衡量的是好坏样本累计分布之间的差值(最大值)。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。
为了便于理解,现假设有1000个样本,其中200个为坏样本(标记为1),800个为好样本(标记为0)。计算模型KS值的步骤如下:
step1:用这1000个样本训练一个模型(可以是逻辑回归、GBDT等),得到1000个样本预测为逾期的prob。
step2:把1000个样本根据prob从高到低排序。
step3:把样本均分成10组/20组等。
step4:统计每个组别中逾期客户数量/正常客户数量。
step5:统计每个组别中累计逾期客户数量占比/累计正常客户数量占比。
step6:计算每个组别中abs(累计逾期客户数量占比-累计正常客户数量占比)。
step7:找到累计占比差值绝对值最大的数,即为所求的KS值。
计算出了模型的KS,那么什么样的KS值,模型是可以使用的?根据行业内的规范,一般KS值要大于0.2才是一个可用的模型,且KS值越大模型效果越好。但是,KS值过高,需核验模型是否使用未来变量,要谨慎使用。具体KS值对应的模型区别能力见下表:
02
ROC曲线和AUC值
ROC(Receiver Operating Characteristic):曲线通过设置不同的临界值,来展示分类模型在不同临界值下的表现。
AUC(Area Under Curve):ROC 曲线与 FPR 轴围成的面积记作 AUC,AUC 越大,说明分类器的性能越好。
风控模型训练完成之后,每个样本都会有对应的两个概率值,一个是样本为正样本的概率,一个是样本为负样本的概率。把每个样本为正样本的概率取出来,进行排序,然后选定一个阈值,将大于这个阈值的样本判定为正样本,小于阈值的样本判定为负样本,然后得到两个值,一个是真正率,一个是假正率。
真正率是判定为正样本,实际为正样本的样本数/所有的正样本数。假正率是判定为正样本,实际为负样本的样本数/所有的负样本数。每选定一个阈值,就能得到一对真正率和假正率,由于判定为正样本的概率值区间为[0,1],那么阈值必然在这个区间内选择,因此在此区间内不停地选择不同的阈值,重复这个过程,就能得到一系列的真正率和假正率,以这两个序列作为横纵坐标,即可得到ROC曲线了。而ROC曲线下方的面积,即为AUC值,一般模型的AUC在0.5到1之间,AUC越高,模型的区分能力越好。
AUC也存在一些缺陷:
1.忽略了预测的概率值和模型的拟合优度;
2.AUC 反应的信息过于笼统,无法反应实际业务中关心的指标;
3.AUC 对 FPR 和 TPR 两种错误的代价同等看待;
4.AUC 没有给出模型误差的空间分布信息;
5.AUC 的 misleading 的问题:可能存在两个模型的 AUC 相等,但其在不同区域的预测能力是不同的。
03
KS与AUC的区别
KS值是能找出风控模型中差异最大的一个分段,因此适合用于cut_off,像评分卡就适合用KS值来评估。但是KS值只能反映出哪个分段是区分最大的,而不能反映所有分段的效果,因此同时还要关注AUC值。AUC值一般在0.5到1之间,值越大表示模型判断准确性越高,即越接近1越好。
如果负样本对业务影响极大,那么区分度肯定就更重要,此时KS比AUC更合适用作模型评估,如果没什么特别的影响,用AUC评估就可以了。
END
猜你喜欢
- 2024-10-29 模型评估(一)(你应该知道的模型评估的五个方法)
- 2024-10-29 精度是远远不够的:如何最好地评估一个分类器?
- 2024-10-29 Python机器学习理论与实战 第二章 Logistic回归模型(下)
- 2024-10-29 R数据分析:ROC曲线与模型评价实例
- 2024-10-29 模型评估与模型监控——AUC 计算示例
- 2024-10-29 为机器学习模型选择正确的度量评估(第二部分)
- 2024-10-29 从另外一个角度解释AUC(从另一个角度去看问题)
- 2024-10-29 机器学习算法评估方法+Spring学习笔记
- 2024-10-29 你真的了解模型评估与选择嘛(模型评价的术语)
- 2024-10-29 机器学习中的评价指标(机器学习模型的评价指标有哪些)
你 发表评论:
欢迎- 06-23MySQL合集-mysql5.7及mysql8的一些特性
- 06-23MySQL CREATE TABLE 简单设计模板交流
- 06-23MYSQL表设计规范(mysql设计表注意事项)
- 06-23MySQL数据库入门(四)数据类型简介
- 06-23数据丢失?别慌!MySQL备份恢复攻略
- 06-23MySQL设计规范(mysql 设计)
- 06-23MySQL数据实时增量同步到Elasticsearch
- 06-23MySQL 避坑指南之隐式数据类型转换
- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)