离职率是企业保留人才能力的体现。分析预测职员是否有离职趋向有利于企业的人才管理，提升组织职员的心理健康，从而更有利于企业未来的发展。

由Shilin Chen撰写

采用分类这一方法构建6种模型对职员离职预测，分别是逻辑回归、梯度提升、随机森林、XGB、CatBoost、LGBM。

数据源准备

员工离职数据，属性包括职员的年龄，出差频率、部门、受教育水平、工作参与度和工作等级等等。

特征转换

是否离职、性别等字符串型数据分别用0或1代替，出差频率等按等级用0-2的数字代替。

构造

以上说明了如何抽取相关特征，我们大致有如下训练样本（只列举部分特征）。

可下载资源

本文分析的数据分享至会员群

Shilin Chen

了解数据集的分布

划分训练集和测试集

以样本中测试集占比百分之二十的比例训练模型

× XGBoost是2016年由华盛顿大学陈天奇老师带领开发的一个可扩展机器学习系统。严格意义上讲XGBoost并不是一种模型，而是一个可供用户轻松解决分类、回归或排序问题的软件包。它内部实现了梯度提升树(GBDT)模型，并对模型中的算法进行了诸多优化，在取得高精度的同时又保持了极快的速度，在一段时间内成为了国内外数据挖掘、机器学习领域中的大规模杀伤性武器。更重要的是，XGBoost在系统优化和机器学习原理方面都进行了深入的考虑。毫不夸张的讲，XGBoost提供的可扩展性，可移植性与准确性推动了机器学习计算限制的上限，该系统在单台机器上运行速度比当时流行解决方案快十倍以上，甚至在分布式系统中可以处理十亿级的数据。 XGBoost的主要优点：简单易用。相对其他机器学习库，用户可以轻松使用XGBoost并获得相当不错的效果。高效可扩展。在处理大规模数据集时速度快效果好，对内存等硬件资源要求不高。鲁棒性强。相对于深度学习模型不需要精细调参便能取得接近的效果。 XGBoost内部实现提升树模型，可以自动处理缺失值。 XGBoost的主要缺点：相对于深度学习模型无法对时空位置建模，不能很好地捕获图像、语音、文本等高维数据。在拥有海量训练数据，并能找到合适的深度学习模型时，深度学习的精度可以遥遥领先XGBoost。

summary(dftrain)

视频

Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

建模

使用Stratified K-Fold交叉验证来进行模型评估

def cross_valtion(model, X, y):
    skf = StratiFold(n_splits = 10, random_state = 42, shuffle = True)
    scores = []
    predictions = np.ros(len(X))
    
    for fold, (train_index, test_index) in enum

这是一个逻辑回归分类器的实例化，其中random_state参数用于指定随机的种子数，以便结果的可重复性。逻辑回归是一种线性模型，用于解决二元分类问题。

LogisticRegression(random_state = 42))

梯度提升分类器的实例化，其中random_state参数同样用于指定随机种子数。梯度提升是一种集成学习算法，它将多个弱学习器结合成一个强学习器。


GradientBoostingClassifier(random_st

随机森林分类器的实例化，其中random_state参数用于指定随机种子数。随机森林是一种基于决策树的集成学习算法。

RandomForestClassifier(random_state =

使用XGBoost库的分类器的实例化，其中random_state参数用于指定随机种子数。XGBoost是一个高效的梯度提升库。

XGBClassifier(random_stat

CatBoost分类器的实例化，其中random_state参数用于指定随机种子数。CatBoost是一个使用梯度提升的库，可以处理分类和回归问题。

CatBoostClassifier(random_

使用LightGBM库的分类器的实例化，其中random_state参数用于指定随机种子数。LightGBM是另一个梯度提升库，通常被认为在大型数据集上具有较高的性能。


LGBMClassifier(random_sta

比较结果

逻辑回归

梯度提升分类器

随机森林

XGBClassifier

CatBoostClassifier

LGBMClassifier

预测

在此案例中，CatBoost模型的分类预测能力是最理想的，能够很大程度找准真正离职的职员。

最受欢迎的见解

1.PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失


model.predicroba(tempop(columns = ['id']))[:, 1]

frame = dft[['id']].copy()

总结

对职员离职预测进行了深入的研究，采用了多种机器学习算法进行分类预测，包括逻辑回归、梯度提升、随机森林、XGBoost、CatBoost和LightGBM，并进行了交叉验证和可视化。

r、 weka从决策树模型看员工为什么离职？

阅读文章 ➜

通过数据预处理和特征工程，该论文构建了多个预测模型，包括逻辑回归、梯度提升、随机森林、XGBoost、CatBoost和LightGBM。这些模型在数据集上进行了训练和评估，并采用了交叉验证技术来评估模型的性能和稳定性。

随时关注您喜欢的主题

其中，逻辑回归模型采用了L2正则化来防止过拟合，并使用了网格搜索技术来优化超参数。梯度提升模型采用了决策树作为基本单元，并使用了自适应权重的策略来优化提升过程。随机森林模型采用了多个决策树的集成方法，并使用了特征重要性来评估特征的重要性。XGBoost模型采用了梯度提升算法，并使用了正则化项来优化模型的复杂度。

LightGBM模型采用了决策树算法，并使用了高效的数据结构和算法来优化训练过程。

CatBoost模型采用了梯度提升算法，并使用了类别特征的独热编码来处理分类特征。

最终，在预测职员离职的分类问题上，不同的机器学习算法具有不同的性能表现和优劣。通过交叉验证和可视化技术，我们可以评估模型的性能和稳定性，并为实际应用提供可靠的预测结果。

关于分析师

在此对Shilin Chen对本文所作的贡献表示诚挚感谢，她专注可视化分析、统计分析领域。擅长Python、SQL。

每日分享最新报告和数据资料至会员群

加入会员群

关于会员群

会员群主要以数据研究、报告分享、数据工具讨论为主；
加入后免费阅读、下载相关数据内容，并同步海内外优质数据文档；
老用户可九折续费。
提供报告PDF代找服务

非常感谢您阅读本文，如需帮助请联系我们！

数据分享|python分类预测职员离职:逻辑回归、梯度提升、随机森林、XGB、CatBoost、LGBM交叉验证可视化

离职率是企业保留人才能力的体现。分析预测职员是否有离职趋向有利于企业的人才管理，提升组织职员的心理健康，从而更有利于企业未来的发展。

建模

比较结果

逻辑回归

梯度提升分类器

随机森林

XGBClassifier

CatBoostClassifier

LGBMClassifier

预测

总结

r、 weka从决策树模型看员工为什么离职？

随时关注您喜欢的主题

CatBoost模型采用了梯度提升算法，并使用了类别特征的独热编码来处理分类特征。

关于分析师

相关文章

数据分享|python分类预测职员离职:逻辑回归、梯度提升、随机森林、XGB、CatBoost、LGBM交叉验证可视化

离职率是企业保留人才能力的体现。分析预测职员是否有离职趋向有利于企业的人才管理，提升组织职员的心理健康，从而更有利于企业未来的发展。

建模

比较结果

逻辑回归

梯度提升分类器

随机森林

XGBClassifier

CatBoostClassifier

LGBMClassifier

预测

总结

r、 weka从决策树模型看员工为什么离职？

随时关注您喜欢的主题

CatBoost模型采用了梯度提升算法，并使用了类别特征的独热编码来处理分类特征。

关于分析师

相关文章

关注有关新文章的微信公众号