提问
置顶 风控模型-指标:IV值、WOE值
发布于 1 年前 作者 PMskill小助手 3584 次浏览 来自 数据

评分模型

评分模型开发流程分为:

  • 变量处理:涉及IV值、WOE值的计算;
  • 模型建立;
  • 评分转换;
  • 模型评估。

IV值

接下来,在此基础上计算 信息价值IV(information value) , 一般我们选择 IV值大于0.02的那些变量进入模型。 如果IV值大于 0.5 ,改变量就是属于过预测变量,通常被选座分群变量,将样本拆分成多个群体,针对不同的群体分别开发评分卡。

分群的依据通常也会根据业务上的需要进行设定,常见以区域变量作为分群的标准。

WOE值

证据权重WOE是用来衡量变量某个熟悉的风险的指标,WOE的计算公式: Fvj3v5GMg0s7OnSu26j25YQlCnIB.png

公式中: WOE i :

1 回复

监控模型指标

决策类:准确率/误分率、利润/成本; 排序类:ROC指标(一致性)、Gini指数、KS统计量、提升度;

准确率(Accuracy):准确率是预测和标签一致的样本在所有样本中所占的比例; 精确率(Precision):精确率是你预测为正类的数据中,有多少确实是正类; 查全率(Recall):查全率是所有正类的数据中,你预测为正类的数据占比; F1 Score:有时也用一个F1值来综合评估精确率和召回率,它是精确率和召回率的调和均值; F-beta Score:有时候我们对精确率和召回率并不是一视同仁,比如有时候我们更加重视精确率。我们用一个参数β来度量两者之间的关系。如果β>1, 召回率有更大影响,如果β**; **ROC (receiver operating characteristic curve):绘制方法:首先根据分类器的预测对样例进行排序,排在前面的是分类器被认为最可能为正例的样本。按照真例y方向走一个单位,遇到假例x方向走一个单位。 ROC曲线的横坐标为false positive rate(FPR),纵坐标为true positive rate(TPR)。 ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。 AUC(Area Under the Curve):ROC曲线下的面积,AUC的取值范围一般在0.5和1之间。AUC越大代表分类器效果更好; Lift提升图:Lift =[TP/(TP+FP)] / [(TP+FN)/(TP+FP+FN+TN)] = PV_plus / pi1,它衡量的是,与不利用模型相比,模型的预测能力“变好”了多少,lift(提升指数)越大,模型的运行效果越好。 不利用模型,我们只能利用“正例的比例是(TP+FN)/(TP+FP+FN+TN)”这个样本信息来估计正例的比例(baseline model),而利用模型之后,我们不需要从整个样本中来挑选正例,只需要从我们预测为正例的那个样本的子集TP+FP中挑选正例,这时预测的准确率PV_plus(Precision)为TP/(TP+FP);

Gain增益图 Gains(增益) 与 Lift (提升)类似:Lift 曲线是不同阈值下Lift和Depth的轨迹,Gain曲线则是不同阈值下PV_plus和Depth的轨迹,而PV_plus=Lift*pi1= TP/TP+FP,所以它们显而易见的区别就在于纵轴刻度的不同。

增益图是描述整体精准率的指标。按照模型预测出的概率从高到低排列,将每一个百分位数内的精准率指标标注在图形区域内,就形成了非累积的增益图。如果对每一个百分位及其之前的精准率求和,并将值标注在图形区域内,则形成累积的增益图。

K-S图 正样本洛伦兹曲线记为f(x),负样本洛伦兹曲线记为g(x),K-S曲线实际上是f(x)与g(x)的差值曲线。K-S曲线的最高点(最大值)定义为KS值,KS值越大,模型分值的区分度越好,KS值为0代表是最没有区分度的随机模型。准确的来说,K-S是用来度量阳性与阴性分类区分程度的。

PSI 群体稳定性指标(population stability index) psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))

一般认为psi小于0.1时候模型稳定性很高,0.1-0.25一般,大于0.25模型稳定性差,建议重做。

登录 后发表看法
回到顶部