news 2026/4/17 16:24:46

风控模型中的KS值

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
风控模型中的KS值

文章目录

  • 1 KS值概述
  • 2 KS值的计算原理
    • 2.1 基本概念
    • 2.2 计算步骤
  • 3 KS曲线(KS Plot)
    • 理想情况下的KS曲线:
  • 4 KS值的解读标准
  • 5 计算示例
  • 6 KS值的优缺点
    • 优点:
    • 缺点:
  • 7 KS值 vs AUC
  • 8 总结

1 KS值概述

KS(Kolmogorov-Smirnov)值是一种衡量分类模型(尤其是二分类模型)区分能力的指标。它通过比较正负样本的累积分布来评估模型将"好客户"和"坏客户"分开的能力。

核心思想:一个完美的模型应该能够将所有的"坏客户"(正样本)和"好客户"(负样本)完全分开。

2 KS值的计算原理

2.1 基本概念

在计算KS值时需要得到:

  • 模型预测概率:模型对每个样本预测为正类(如"坏客户")的概率
  • 真实标签:样本的真实类别(好/坏)

2.2 计算步骤

  1. 按预测概率排序:将样本按照模型预测的概率从高到低排序
  2. 等分分组:将排序后的样本分成若干组(通常10-20组)
  3. 计算累积分布
    • 累积好客户占比:从概率最高组开始,累计好客户数量占总好客户的比例
    • 累积坏客户占比:从概率最高组开始,累计坏客户数量占总坏客户的比例
  4. 计算KS值:找到累积坏客户占比与累积好客户占比的最大差值

数学公式
K S = max ⁡ i = 1 n ∣ F bad ( i ) − F good ( i ) ∣ KS = \max_{i=1}^{n} |F_{\text{bad}}(i) - F_{\text{good}}(i)|KS=i=1maxnFbad(i)Fgood(i)

其中:

  • F bad ( i ) F_{\text{bad}}(i)Fbad(i):前i组中坏客户的累积占比
  • F good ( i ) F_{\text{good}}(i)Fgood(i):前i组中好客户的累积占比
  • n nn:分组数量

3 KS曲线(KS Plot)

KS值通常通过KS曲线来可视化:

  • 横轴:分组序号(从预测概率最高到最低)
  • 纵轴:累积百分比
  • 两条曲线
    • 坏客户累积分布曲线:上升较快,因为坏客户集中在高分区域
    • 好客户累积分布曲线:上升较慢,因为好客户相对均匀分布
  • KS值:两条曲线之间的最大垂直距离

理想情况下的KS曲线:

  • 坏客户曲线迅速上升到1,然后保持平稳
  • 好客户曲线缓慢上升
  • 两条曲线分离度很大

4 KS值的解读标准

根据经验,KS值的评价标准如下:

KS值范围模型区分能力评价
< 0.2模型基本没有区分能力
0.2 - 0.3一般有一定的区分能力,但较弱
0.3 - 0.5较好模型有较好的区分能力
0.5 - 0.75模型有很强的区分能力
> 0.75极强(可能可疑)需要检查是否存在数据泄露

注意

  • 在金融风控领域,KS值通常要求大于0.3
  • KS值不是越高越好,过高的KS值可能意味着过拟合或数据泄露
  • KS值对样本分布比较敏感

5 计算示例

假设我们有10个样本,按预测概率排序后的结果:

样本预测概率真实标签累积坏客户占比累积好客户占比差值
10.950.200.2
20.900.400.4
30.850.40.1250.275
40.800.60.1250.475
50.750.60.250.35
60.700.80.250.55
70.650.80.3750.425
80.600.80.50.3
90.551.00.50.5
100.501.01.00

计算过程

  • 总坏客户数:5个
  • 总好客户数:5个
  • 在第6个样本处,差值最大:0.55

因此,KS值 = 0.55

6 KS值的优缺点

优点:

  1. 直观易懂:通过单一数值反映模型区分能力
  2. 业务解释性强:在金融风控中广泛使用
  3. 不受类别不平衡影响:关注的是分布差异,而不是绝对数量
  4. 阈值无关:不像准确率那样依赖于特定分类阈值

缺点:

  1. 对样本分布敏感:样本分布变化会影响KS值
  2. 只关注最大差异:可能忽略了整体的分布信息
  3. 在深度学习中较少使用:更多使用AUC等指标
  4. 受分组数量影响:不同的分组方式可能得到不同的KS值

7 KS值 vs AUC

特征KS值AUC
关注点累积分布的最大差异ROC曲线下的面积
范围[0, 1][0.5, 1]
业务解释模型最大区分程度整体排序能力
敏感性对分布敏感相对稳定
应用场景金融风控、信用评分通用分类问题

关系:一般来说,KS值和AUC有正相关关系,但不是严格的线性关系。

8 总结

KS值是风险评分模型中至关重要的评估指标:

  • 核心:衡量模型区分正负样本的能力
  • 计算:通过比较累积分布的最大差异
  • 标准:通常要求KS > 0.3
  • 可视化:通过KS曲线直观展示
  • 应用:特别适用于金融风控、信用评分等场景

掌握KS值不仅有助于模型评估,还能帮助理解模型的业务表现,是在风险建模领域必须掌握的核心指标之一。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 3:36:14

EDCA Admission Protocols 发布:AI 系统进入“可拒绝接入”时代

在现有 AI 系统中&#xff0c;一个长期被忽视却至关重要的问题正在逐渐显现&#xff1a;当人类表达进入 AI 系统时&#xff0c; 是否存在一个明确、可裁决、可拒绝的接入阶段&#xff1f;现实情况是&#xff0c;大多数系统默认“表达即执行”。 一旦输入被接收&#xff0c;就会…

作者头像 李华
网站建设 2026/4/17 18:11:17

格雷厄姆特价股票策略在不同数字监管沙盒环境中的表现

格雷厄姆特价股票策略在不同数字监管沙盒环境中的表现 关键词:格雷厄姆特价股票策略、数字监管沙盒、股票投资、策略表现、监管环境 摘要:本文深入探讨了格雷厄姆特价股票策略在不同数字监管沙盒环境中的表现。首先介绍了研究的背景、目的、预期读者等内容,阐述了核心概念及…

作者头像 李华
网站建设 2026/4/17 2:15:21

【性能测试】4_性能测试基础 _流程(重点)

文章目录一、如何开展工作二、性能测试流程2.1 性能测试需求分析2.2 性能测试计划及方案2.3 性能测试用例2.4 建立测试环境2.5 测试脚本编写/录制2.6 执行测试脚本2.7 性能测试监控2.8 性能分析和调优2.9 性能测试报告总结一、如何开展工作 思考&#xff1a;为什么要掌握性能测…

作者头像 李华
网站建设 2026/4/18 3:30:25

A.每日一题——85. 最大矩形

题目链接&#xff1a;85. 最大矩形&#xff08;困难&#xff09; 算法原理&#xff1a; 博主声明&#xff1a;这84题和85题感谢灵神&#x1f339;&#x1f339;&#x1f339;的启发&#xff0c;我在灵神的思路上产生自己的想法&#xff0c;因此自己纯手敲了一遍&#xff0c;写博…

作者头像 李华