数据转换：
- 本数据集无空值。
- 平衡数据。
- 对一些连续特征进行转换，使其值位于 0~1 区间，消除不同取值范围的影响。
- 将输出变量从 “是” 和 “否” 转换为 0 和 1。
- 将数据集分为训练集和测试集。
模型迭代与优化：
- 选择本项目中要使用的变量子集。
- 描述输出（分类）变量的分布（使用柱状图）。
- 报告连续输入变量的均值、中位数和标准差等值。

（二）结果（数据转换）
创建平衡的训练集和测试集，对连续变量进行单位转换，使其值位于 0~1 区间；对分类变量进行因子转换，去除 “未知” 属性；转换输出变量。经过数据平衡和去除未知数据后，若某个变量失去分类意义则将其去除。

八、建议

经济状况对银行贷款业务有至关重要的影响。从两种模型来看，在经济良好时，银行应尽可能多地联系客户（此时客户类型不重要）；在经济衰退时，应避免大规模寻找客户，而应寻找高净值、有贷款需求的个人，如已婚、高学历、无抵押贷款和个人贷款的人，因为他们违约的可能性较低。在经济繁荣时联系更多客户以获取更多利润，在经济低迷时联系更多优质客户，以实现项目目标：识别更多有贷款需求的客户并创造更多收入。

Python决策树、随机森林、朴素贝叶斯、KNN（K-最近邻居）分类分析银行拉新活动挖掘潜在贷款客户|附代码数据

项目背景：银行的主要盈利业务靠的是贷款，这些客户中的大多数是存款大小不等的责任客户（存款人）。银行拥有不断增长的客户。该银行希望增加借款人（资产客户），开展更多的贷款业务，并通过贷款利息赚取更多利润。

因此，银行希望将负债的客户转换为个人贷款客户。（同时保留他们作为存款人）。该银行去年针对负债客户开展的一项活动显示，成功实现了9％以上的成功转化率。

监督学习（特征值+目标值）
分类（目标值离散型）： k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
回归（目标值连续型）：线性回归、岭回归
标注：隐马尔可夫模型 (不做要求)

监督学习（英语：Supervised learning），可以由输入数据中学
到或建立一个模型，并依此模式推测新的结果。输入数据是由
输入特征值和目标值所组成。函数的输出可以是一个连续的值
（称为回归），或是输出是有限个离散值（称作分类）。

无监督学习（特征值）
聚类： k-means

无监督学习（英语：Supervised learning），可以由输入数据中
学到或建立一个模型，并依此模式推测新的结果。输入数据是
由输入特征值所组成。

该部门希望建立一个模型，来帮助他们确定购买贷款可能性更高的潜在客户。可以增加成功率，同时降低成本。

数据集

下面给出的文件包含5000个客户的数据。数据包括客户人口统计信息（年龄，收入等），客户与银行的关系（抵押，证券账户等）以及客户对上次个人贷款活动的因变量（个人贷款）。在这5000个客户中，只有480个（= 9.6％）接受了先前活动中提供给他们的个人贷款

data.head()

最受欢迎的见解

1.从决策树模型看员工为什么离职

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失

data.columns

视频

贝叶斯推断线性回归与R语言预测工人工资数据

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

属性信息

属性可以相应地划分：

变量 ID 一个人的客户ID与贷款之间没有关联，也无法为将来的潜在贷款客户提供任何一般性结论。我们可以忽略此信息进行模型预测。

二进制类别具有五个变量，如下所示：

个人贷款-该客户是否接受上一个广告系列提供的个人贷款？ 这是我们的目标变量
证券帐户-客户在银行是否有证券帐户？
CD帐户-客户在银行是否有存款证明（CD）帐户？
网上银行-客户是否使用网上银行？
信用卡-客户是否使用银行发行的信用卡？

数值变量如下：

年龄-客户的年龄
工作经验
收入-年收入（元）
CCAvg-平均信用卡消费
抵押-房屋抵押价值

视频

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

有序分类变量是：

家庭-客户的家庭人数
教育程度-客户的教育程度

标称变量是：

ID
邮政编码

data.shape

data.info()

R语言基于决策树的银行信贷风险预警模型

阅读文章 ➜

#&nbsp;文件中没有列有空数据
data.apply(lambda&nbsp;x&nbsp;:&nbsp;sum(x.isnull()))

#&nbsp;对数据进行目测
data.describe().transpose()

想了解更多关于模型定制、咨询辅导的信息？

✉

联系我们

随时关注您喜欢的主题

#查看有多少不同数据
data.apply(lambda&nbsp;x:&nbsp;len(x.unique()))

两两变量散点图

年龄特征通常是分布的，大多数客户年龄在30岁到60岁之间。
经验大多分布在8年以上经验的客户。这里的 平均值 等于中位数。有负数。这可能是数据输入错误，因为通常无法衡量负面的工作经验。我们可以删除这些值，因为样本中有3或4条记录。
收入出现 正偏斜。大多数客户的收入在45,000到55K之间。我们可以通过说平均值 大于 中位数来确认这一点
CCAvg 也是一个正偏变量，平均支出在0K到10K之间，大多数支出不到2.5K
抵押 70％的人的抵押贷款少于4万。但是最大值为635K
家庭和教育变量是序数变量。家庭分布均匀

有52条记录经验为负数。在进一步进行之前，我们需要对这些记录进行清理

data\[data\['Experience'\]&nbsp;<&nbsp;0\]\['Experience'\].count()

#清理负数变量
dfExp&nbsp;=&nbsp;data.loc\[data\['Experience'\]&nbsp;>0\]
data.loc\[negExp\]\['ID'\].tolist()&nbsp;#&nbsp;得到有负数经验的客户ID

有52条负面经验的记录

以下代码执行以下步骤：

对于具有ID的记录，获取Age column的值
对于具有ID的记录，获取Education column的值
从具有正数经验的记录的数据框中过滤符合以上条件的记录，并取中位数
将中位数填充原本负数经验的位置

data.loc\[np.where(\['ID'\]==id)\]\["Education"\].tolist()\[0\]
df_filtered\['Experience'\].median()

#&nbsp;检查是否有负数经验的记录
data\[data\['Experience'\]&nbsp;<&nbsp;0\]\['Experience'\].count()

收入和教育对个人贷款的影响

观察：看来教育程度为1的客户收入更高。但是，接受了个人贷款的客户的收入水平相同

boxplot(x='Education',y='Income',data=data)

推论：从上图可以看出，没有个人贷款的客户和拥有个人贷款的客户的抵押贷款较高。

观察：大多数没有贷款的客户都有证券账户

观察：家庭人数对个人贷款没有任何影响。但是似乎3岁的家庭更有可能借贷。考虑未来的推广活动时，这可能是一个很好的观察结果。

观察：没有CD帐户的客户，也没有贷款。这似乎占多数。但是几乎所有拥有CD帐户的客户也都有贷款

观察：该图显示有个人贷款的人的信用卡平均费用更高。平均信用卡消费中位数为3800元，表明个人贷款的可能性更高。较低的信用卡支出（中位数为1400元）不太可能获得贷款。这可能是有用的信息。

观察上图显示与经验和年龄呈正相关。随着经验的增加，年龄也会增加。颜色也显示教育程度。四十多岁之间存在差距，大学以下的人也更多

#&nbsp;与热图的关联性

corr&nbsp;=&nbsp;data.corr()
plt.figure(figsize=(13,7))
#&nbsp;创建一个掩码，以便我们只看到一次相关的值

a&nbsp;=&nbsp;sns.heatmap(corr,mask=mask,&nbsp;annot=True,&nbsp;fmt='.2f')

观察

收入和CCAvg呈中等相关。
年龄和工作经验高度相关

sns.boxplot

看下面的图，收入低于10万的家庭比高收入的家庭更不可能获得贷款。

应用模型

将数据分为训练集和测试集

train\_labels&nbsp;=&nbsp;train\_set
test\_labels&nbsp;=&nbsp;test\_set

决策树分类器

DecisionTreeClassifier(class_weight=None,&nbsp;criterion='entropy',&nbsp;...)

dt_model.score

0.9773333333333334

dt\_model.predict(test\_set)

预测

array(\[0,&nbsp;0,&nbsp;0,&nbsp;0,&nbsp;0\])

查看测试集

test_set.head(5)

朴素贝叶斯

naive\_model.fit(train\_set,&nbsp;train_labels)
naive_model.score

0.8866666666666667

随机森林分类器

RandomForestClassifier(max\_depth=2,&nbsp;random\_state=0)

Importance.sort_values

randomforest\_model.score(test\_set,test_labels)

0.8993333333333333

KNN（K-最近邻居）

data.drop(\['Experience'&nbsp;,'ID'\]&nbsp;,&nbsp;axis&nbsp;=&nbsp;1).drop(labels=&nbsp;"PersonalLoan"&nbsp;,&nbsp;axis&nbsp;=&nbsp;1)
train\_set\_dep&nbsp;=&nbsp;data\["PersonalLoan"\]

acc&nbsp;=&nbsp;accuracy\_score(Y\_Test,&nbsp;predicted)
print(acc)

0.9106070713809206

模型比较

for&nbsp;name,&nbsp;model&nbsp;in&nbsp;models:
    kfold&nbsp;=&nbsp;model\_selection.KFold(n\_splits=10)
    cv\_results&nbsp;=&nbsp;model\_selection.cross\_val\_score(model,&nbsp;X,&nbsp;y,&nbsp;cv,&nbsp;scoring)


#&nbsp;箱线图算法的比较
plt.figure()