变量筛选一张图

对于刚进入职场的小伙伴来说,风控建模中海量变量筛选总是让人头疼,不知道如何把握。

本文用一张图简单总结风控建模中变量筛选方法,让你快速掌握如何进行变量筛选。

本文目录
  1. 风控建模中变量筛选方法

  2. 风控建模变量筛选一张图


一、风控建模中变量筛选方法

在金融风控建模中,变量筛选是构建稳定和有效模型的关键,以下是几种常用的变量筛选方法。


 1   变量自身分布稳定性
①变量PSI(Population Stability Index):衡量变量分布稳定性的常用方法。
PSI值计算公式为:PSI=∑((实际占比−预期占比)×ln(预期占比/实际占比))。
通过选择基准日,计算后续每天与基准日数据的PSI值,超过设定阈值(通常为0.1)的变量考虑删除。
②变量长期趋势图:虽然PSI值可以帮助识别变量分布变动的幅度,但它无法展示变量具体是往哪个方向偏移以及每个分组占比的具体变化情况。

因此,查看每个变量的长期趋势分布图可以提供更多信息,帮助发现变量潜在的问题。


 2   变量和目标值的强相关关系IV值计算
①IV(Information Value):衡量变量预测能力的指标,用于初期筛选变量。一般将IV值阈值卡在0.02左右,选择IV值较大的变量入模。
②相关性矩阵:使用热力图展示变量间的相关性,高相关性的变量可能会被剔除,以避免多重共线性。

 3   基于模型的特征重要性
①随机森林特征重要性:通过随机森林模型里的特征重要性指标评估特征重要性,选择重要性较高的特征。
②梯度提升机特征重要性:类似于随机森林,梯度提升机也可以提供特征重要性的评估。
③线性模型特征重要性:在线性模型中,可以通过系数的显著性来评估特征的重要性。

 4   其他常用的变量筛选方法方差
①方差:选择方差较大的变量,因为它们提供了更多的信息。
②前后向筛选:典型的是逐步回归,前向筛选是从没有变量开始,逐渐添加变量;后向筛选是从所有变量开始,逐渐剔除变量。
③方差膨胀系数(VIF):用于检测多重共线性,VIF值高的变量可能需要被剔除。
④业务逻辑考虑:基于业务知识,选择与风险有逻辑关系的变量。

二、风控建模变量筛选一张图

风控建模变量筛选一张图展示如下:

其他的变量筛选方法,比如缺失值率、单一值占比等也都可以结合考虑。
更详细的变量筛选方法介绍可翻看文章:一文囊括风控建模中的变量筛选方法变量筛选—特征包含信息量
至此,风控建模变量筛选一张图已讲解完毕,对风控建模学习和兼职感兴趣的小伙伴欢迎加群讨论。

【部分群限时免费进分群讨论学习Python、玩转Python、风控建模【29.9元进】、人工智能、数据分析相关问题,还提供招聘推信息、兼职信息、优秀文章、学习视频、公众号文章答疑,也可交流工作中遇到的难题。如需添加微信号19967879837,加时备注想进的群,比如风控建模。

往期回顾:
信贷风控架构一张图

变量筛选—特征包含信息量

一文弄懂卡方分箱的原理和应用

应用决策树生成【效果好】【非过拟合】的策略集

一文囊括风控模型搭建(原理+Python实现),持续更新。。。

不同工作年限风控建模岗薪资水平如何?招聘最看重面试者什么能力?

100天精通风控建模(原理+Python实现)——第32天:集成学习是什么?在风控建模中有哪些应用?



限时免费加群

19967879837

添加微信号、手机号

请使用浏览器的分享功能分享到微信等