金融风控-贷款违约预测 -- task02

时间:2024-05-23 08:37:42

金融风控-贷款违约预测

今天是task02的打卡时间点,作为社畜,时间着实紧张。EDA结果不是很好。但是也是作为一种记录,记录自己的学习过程。看到群里的小伙伴拿到0.73的成绩,我觉得,我也是可以的,周末好好加油学习,你也是可以的。

本章主要是进行数据可视化,探索可自变量与应变量之间的关系

首先看了变量类型,里面共有5个类别型变量,其余都为数值型变量。但是看了其分布,感觉这些数值型变量中,还有一些是类别型变量。

1 ) 贷款违约风险,及label Y变量“isDefault”,分布如下

金融风控-贷款违约预测 -- task02
金融风控-贷款违约预测 -- task02
从这个比例来看,违约的比例还是比较高的,数据的分布还算比较均衡的。

2)贷款金额分布
金融风控-贷款违约预测 -- task02
3)贷款年限分布
金融风控-贷款违约预测 -- task02
大多数都还是短期贷款为主的。其实这里应该看,这不同贷款年限下,违约风险是否有差别(后面再补充吧)。

4)贷款利率分布

金融风控-贷款违约预测 -- task02
从分布来看,基本是服从正太部分的。

5)分期金额

金融风控-贷款违约预测 -- task02
总体来看近似服从正太分布。

6)贷款登记分布

金融风控-贷款违约预测 -- task02
从贷款等级分布来看,基本上越是次级贷款,其违约比例是越高的。
7)贷款等级分布
金融风控-贷款违约预测 -- task02
趋势上面的基本一致,这两个特征,可以考虑去掉其中一个。

8)工作年限与违约

金融风控-贷款违约预测 -- task02
和我们认知基本也是一致的,工作时间越长,违约的比例是成比例降低。

9) 住房情况,如下

金融风控-贷款违约预测 -- task02
从这个分布来看,和别人博客中所描述的,应该0是有房的,其他都是无房的情况,数据处理时,可以考虑将 > 1 的都改成1.

10)verificationStatus 验证状态,不确定具体含义如何解释
与违约之间的关系如下。这里和预期不太一样,后面还需要仔细研究下。
金融风控-贷款违约预测 -- task02

11)债务收入比,分布严重失衡,是否后续需要数据分桶处理。
异常值较多。
金融风控-贷款违约预测 -- task02
12)delinquency_2years

金融风控-贷款违约预测 -- task02

13)fico范围,结果包含很多0,不知道这个是如何解释。数据应该需要特殊处理的。

金融风控-贷款违约预测 -- task02

14)applicationType
这里0应该是两个贷款,1是1人贷款。
金融风控-贷款违约预测 -- task02

总结

总的来说,确认了一些基础特征的分布情况,为后面的特征工程奠定了基础。但是还有部分特征是没有好好做可视化的,时间匆忙。后面再进一步处理。

代码后续会更新到git上。