Python用户流失数据挖掘：建立逻辑回归、XGboost、随机森林、决策树、支持向量机、朴素贝叶斯模型和Kmeans聚类用户画像

视频

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

3 切分数据

# 划分训练集，测试集
X\_train, X\_test, y\_train, y\_test = train\_test\_split(X, y, test\_size=0.2, random\_state=666)

3.1 理解数据

可以看到变量比较的多，先进行分类，除去目标变量label，此数据集的字段可以分成三个类别：订单相关指标、客户行为相关指标、酒店相关指标。

4 特征工程

# 用训练集进行数据探索
train = pd.concat(\[X\_train,y\_train\],axis=1)

视频

支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例

4.1 数据预处理

视频

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

3.python中使用scikit-learn和pandas决策树

4.1.1 删除不必要的列

X_train.pop("sampleid")
X_test.pop("sampleid")
train.pop("sampleid")

4.1.2 数据类型转换

字符串类型的特征需要处理成数值型才能建模,将arrival和d相减得到”提前预定的天数”,作为新的特征

# 增加列
# 将两个日期变量由字符串转换为日期格式类型
train\["arrial"\] = pd.to_datimetain\["arrval"\])
X\_tst\["arival"\] = d.to\_daetime(X_est\["arival"\])
# 生成提前预定时间列（衍生变量）
X\_trin\["day\_adanced"\] = (X_rain\["arival"\]-Xtrain\["d"\]).dt.days

## 删除列
X_tran.dro(columns="d","arrivl"\],inpace=True)

4.1.3 缺失值的变量生成一个指示哑变量

============================

zsl = tain.isnll().sum()\[tain.isnll(.sum()!=0\].inex

4.1.4 根据业务经验填补空缺值

ordernum_oneyear 用户年订单数为0 ,lasthtlordergap 11%用600000填充 88%用600000填充一年内距离上次下单时长,ordercanncelednum 用0填充用户一年内取消订单数,ordercanceledprecent 用0t填充用户一年内取消订单率 242114 242114 -为空有2种情况 1：新用户未下订单的空-88.42% 214097 2.老用户1年以上未消费的空增加编码列未下订单新用户和 1年未下订单的老用户

最受欢迎的见解

1.从决策树模型看员工为什么离职

2.R语言基于树的方法：决策树，随机森林

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失

tkq = \["hstoryvsit\_7ordernm","historyviit\_visit\_detaipagenum","frstorder\_b","historyvi
# tbkq = \["hitoryvsit\_7dernum","hisryvisit\_isit_detailagenum"\]

X_train\[i\].fillna(0,inplace=True)

## 一部分用0填充，一部分用中位數填充
# 新用戶影響的相關屬性：ic\_sniti，cosuing\_cacity
n\_l = picesensitive","onsmng\_cpacty"\]
fori in n_l
X\_trini\]\[Xra\[X\_trinnew_ser==1\].idex\]=0
X\_est\[i\]\[X\_test\[X\_test.nw\_user==1\].inex\]=0

4.1.5 异常值处理

将customer\_value\_profit、ctrip_profits中的负值按0处理
将delta\_price1、delta\_price2、lowestprice中的负值按中位数处理

视频

KMEANS均值聚类和层次聚类：R语言分析生活幸福质量系数可视化实例