借着二胎政策的开放与家庭消费升级的东风，母婴市场迎来了生机盎然的春天，尤其是母婴电商行业，近年来发展迅猛。

由Kaizong Ye，Coin Ge撰写

用户获取和流失是一对相对概念，就好比一个水池，有进口，也有出口。

我们不能只关心进口的进水速率，却忽略了出水口的出水速率。

可下载资源

完整程序、数据和文档（word）

挽留一个老用户相比拉动一个新用户，在增加营业收入、产品周期维护方面都是有好处的。并且获得一个新用户的成本是留存一个老用户的5~6倍。

× 决策树的减枝方法有预减枝和后减枝，后减枝有误差降低减枝、悲观减枝和代价复杂度减枝法等方法。最终目的都是减少不必要的节点。

我们最近有一个很棒的机会与一位伟大的客户合作，要求构建一个适合他们需求的用户流失预测算法。

本课题着眼于利用决策树算法和随机森林模型，对用户进行预测，判断哪些客户会流失。数据的处理方法以及机器学习本身算法理论的学习和代码实现在各领域具有相同性，之后同学可以在其他感兴趣的领域结合数据进行分析，利用此课题所学知识举一反三。

视频

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

数据

查看可用数据源

用户名密码登陆


channel <- odbcConnect("sa", uid="sa", pwd="12345")

品牌表

data<-sqlQuery(channel,"select * from  DataMeet1$")
 
head(data)

input:品牌品牌奶粉阶段（对应小孩年龄）城市等级（1,2,3线城市）

Output

最受欢迎的见解

1.PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失

用户寿命（天）是否流失

head(data)

R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化

阅读文章 ➜

转换数据，拟合决策树模型

建立决策树预测是否流失

CARTmodel = rpart
draw.tree(CARTmodel)

随时关注您喜欢的主题

绘制决策树

输出决策树cp值

printcp(CARTmodel)

根据cp值对决策树进行剪枝

cp= CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"]
cp

prune(CARTmodel, cp= CARTmodel$cpCP"])  #剪枝


CARTmodel2 <- prune(CARTmo

对数据进行预测


(predict(CARTmodel2,datanew.test ))

summary(CARTmodel2)

计算混淆矩阵和准确度

tab=table(tree.pred,datanew.test$是否流失)#得到训练集混淆矩阵

(tab[1,1]+tab[2,2])/sum(tab)

mse


mean((as.numeric(tree.pred) - as.numeric(datanew.test$是否流失))^2)

输出结果

CARTmodel2

将表写进数据库里
sqlSave(channel,result_lossnew11,

变量重要程度

CARTmodel$varmportance

预测用户寿命.天.

CARTmodel = rpart(用户寿命.天. ~

绘制决策树

决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。

输出决策树cp值

根据cp值对决策树进行剪枝

prune(CARTmodel, cp= CARTmodel$cptab

prune(CARTmodel

进行预测

predict(CARTmodel

输出结果

#mse

mean((as.numeric(tree.pred) - as.numeric(datanew.test$用户寿命.天.))^2)

## [1] 7713.91

变量重要程度

随机森林

随机森林是属于集成学习，其核心思想就是集成多个弱分类器以达到三个臭皮匠赛过诸葛亮的效果。

rf <- randomForest(datanew.train$用户寿命.天.  ~

MSE误差


mean(predict(rf)- datanew.train$用户寿命.天.  )^2

## [1] 0.007107568

变量重要程度

plot(d,center=TRUE,leaflab='none',

混淆矩阵

table(predict(rf), datanew.train$是否流失  )

##    
##       0   1
##   0  84  15
##   1  23 589

#变量重要程度
importance(rf)

chaid树

CHAID是一种高效的统计分箱技术，是商业上运用最成功的算法之一。通过统计检验方法，CHAID评估潜在预测变量的所有取值，合并对目标变量而言在统计意义上同质的取值成为一个分箱，保留那些有异质性的取值为单独的分箱，然后选择最佳的预测，成为决策树的第一个分支，因此每一个子节点都是同质的，此过程继续递推直至完成整个决策树。

plot(ct, mai

ctree

是否流失

plot(ct,

混淆矩阵

table(predict(ct), datanew.train$是否流失)

##    
##       0   1
##   0  89   1
##   1  18 603

预测类别概率

tr.pred = predict(ct, newdata=datanew.train, type="prob")
tr.pred

将结果表写进数据库里
sqlSave(channel,resul

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

数据

用户名密码登陆

品牌表

input:品牌品牌奶粉阶段（对应小孩年龄）城市等级（1,2,3线城市）

Output

用户寿命（天）是否流失

R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化

转换数据，拟合决策树模型

建立决策树预测是否流失

随时关注您喜欢的主题

绘制决策树

输出决策树cp值

根据cp值对决策树进行剪枝

对数据进行预测

计算混淆矩阵和准确度

mse

输出结果

变量重要程度

预测用户寿命.天.

绘制决策树

输出决策树cp值

根据cp值对决策树进行剪枝

进行预测

输出结果

变量重要程度

随机森林

MSE误差

变量重要程度

混淆矩阵

chaid树

ctree

混淆矩阵

预测类别概率

相关文章

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

数据

用户名密码登陆

品牌表

input:品牌 品牌 奶粉阶段（对应小孩年龄） 城市等级（1,2,3线城市）

Output

用户寿命（天） 是否流失

R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化

转换数据，拟合决策树模型

建立决策树预测是否流失

随时关注您喜欢的主题

绘制决策树

输出决策树cp值

根据cp值对决策树进行剪枝

对数据进行预测

计算混淆矩阵和准确度

mse

输出结果

变量重要程度

预测用户寿命.天.

绘制决策树

输出决策树cp值

根据cp值对决策树进行剪枝

进行预测

输出结果

变量重要程度

随机森林

MSE误差

变量重要程度

混淆矩阵

chaid树

ctree

混淆矩阵

预测类别概率

相关文章

关注我们，永远不要错过任何见解。

input:品牌品牌奶粉阶段（对应小孩年龄）城市等级（1,2,3线城市）

用户寿命（天）是否流失