银行贷款业务是银行的主要盈利方式，对于具体的贷款申请人，是否可以同意贷款申请是一件十分重要的步骤，如果贷款人在贷款后出现违约行为，这将对银行的资金流稳定性造成不利的影响。

因此针对贷款人的“数据信息”进行处理和违约预测具有举足轻重的作用。对于金融行业来说，贷款业务及人员信息十分复杂，对于数据特征的处理十分重要，在数据处理完成后，通过机器学习模型进行预测以判断贷款人是否会违约。

由Linseng Bo撰写

解决方案

任务/目标

根据金融业务要求，运用数据源分析预测贷款人是否违约。

金融业务有一项要求，即利用各种数据源进行分析，以此来预测贷款人是否会出现违约的情况。这里的金融业务可能包括银行贷款业务、金融机构的信贷业务等。数据源可以是贷款人的个人信用记录、收入情况、负债情况、职业稳定性等多方面的信息。通过对这些数据源进行综合分析，可以建立模型或运用特定的算法来判断贷款人在未来的还款过程中是否有可能不履行还款义务，也就是违约。

× 随着世界经济的蓬勃发展和中国改革开放的逐渐深入，无论是企业的发展还是从人们消费观念的转变，贷款已经成为企业和个人解决经济问题的一种重要方式。随着银行各种贷款业务的推出和人们日益膨胀的需求，不良贷款也就是贷款违约的概率也随之激增。为了避免贷款违约，银行等金融机构在发放贷款时会对借款人的信用风险进行评估或打分，预测贷款违约的概率并根据结果做出是否发放贷款的判断。如何在发放贷款前有效的评价和识别借款人潜在的违约风险，是金融机构信用风险管理的基础和重要环节，用一套科学的模型和系统来判定贷款违约的风险性可以将风险最小化和利润最大化。

数据源准备

特征转换

对于贷款金额、年收入等数值型数据，使用数据分箱的方法分为四类用数字0-3表示，阈值根据样本总数均分位处的值确定；对于贷款目的、贷款等级等类别型数据，使用独热编码的方法处理；对于放贷日期等时间类型数据，转换成标准时间格式；对于匿名n系列数据，使用seaborn进行特征性筛查，剔除相关性高的特征。

构造特征

结合金融业务特点，由贷款金额、利率、年限构建新特征贷款利息，由信贷开立时间和放贷时间构建新特征经历时间等。

划分训练集和测试集

“划分训练集和测试集”是指在机器学习和数据分析等领域中，将已有的数据分成两个部分。训练集用于训练模型，即让模型通过学习训练集中的数据特征和规律来不断调整自身的参数，以达到更好的性能表现。测试集则用于评估模型在从未见过的数据上的表现，检验模型的泛化能力。例如，在图像识别任务中，可以将一定比例的图像数据划分到训练集用于训练模型识别不同的物体，另一部分图像划分到测试集来测试模型对新图像的识别准确率。

将训练集划分为：训练集训练模型、验证集评估模型、测试集最后一次测试模型，比例为：6:2:2 ，最后使用训练集预测结果，最后不加载测试集去训练，会造成测试集数据泄露。本项目中80万训练集，20万验证集，20万测试集。

Linseng Bo

✉

联系我们

成为新会员获取本文分析的智能体、数据、代码、报告

加入会员群

作者

Weilong Zhang
✉ 联系我们

最受欢迎的见解

1.用R语言模拟混合制排队随机服务排队系统

2.R语言中使用排队论预测等待时间

3.R语言中实现马尔可夫链蒙特卡罗MCMC模型

4.R语言中的马尔科夫机制转换(Markov regime switching)模型

5.python中使用马尔可夫决策过程(MDP)动态编程来解决最短路径强化学习问题

6.用R语言模拟混合制排队随机服务排队系统

7.Python基于粒子群优化的投资组合优化

8.R语言几何布朗运动 GBM模拟股票价格优化建立期权定价概率加权收益曲线可视化

9.R语言进行支持向量机回归SVR和网格搜索超参数优化

建模

Logistic：

逻辑回归是一种分类算法，多用于两个类别之间的判断，逻辑回归的损失称为对数似然损失，使用梯度下降的方法优化损失函数的值。

视频

Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

Xgboost：

GBDT是基于boosting方法将所有弱分类器的结果相加等于预测值，然后下一个弱分类器去拟合误差函数对预测值的残差，每棵树就是一个弱分类器。Xgboost本质上也是一种GBDT，在损失函数中添加了正则化项L1和L2来控制模型的复杂度，提高泛化能力。

Lightgbm

LightGBM（Light Gradient Boosting Machine）是一个实现GBDT算法的框架，具有支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率。GBDT在每一次迭代过程中，都需要遍历整个训练集多次，因此与内存产生冲突，对于海量数据是很不利的。Xgboost采用预排序方法的决策树算法，虽然对于分割点的寻找较为准确，但同时保存了特征值和特征排序的结果，空间消耗很大，并且在遍历分割点时计算分裂增益，时间消耗也大。Lightgbm采用直方图算法将连续特征放入直方图箱子中，从而减少内存使用和时空复杂度。