R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

借着二胎政策的开放与家庭消费升级的东风,母婴市场迎来了生机盎然的春天,尤其是母婴电商行业,近年来发展迅猛。

由Kaizong Ye,Coin Ge撰写

用户获取和流失是一对相对概念,就好比一个水池,有进口,也有出口。


我们不能只关心进口的进水速率,却忽略了出水口的出水速率。

挽留一个老用户相比拉动一个新用户,在增加营业收入、产品周期维护方面都是有好处的。并且获得一个新用户的成本是留存一个老用户的5~6倍。

我们最近有一个很棒的机会与一位伟大的客户合作,要求构建一个适合他们需求的用户流失预测算法

本课题着眼于利用决策树算法和随机森林模型,对用户进行预测,判断哪些客户会流失。数据的处理方法以及机器学习本身算法理论的学习和代码实现在各领域具有相同性,之后同学可以在其他感兴趣的领域结合数据进行分析,利用此课题所学知识举一反三。


视频

从决策树到随机森林:R语言信用卡违约分析信贷数据实例

探索见解

去bilibili观看

探索更多视频


视频

Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例

探索见解

去bilibili观看

探索更多视频

数据

image.png
查看可用数据源
image.png

用户名密码登陆


channel <- odbcConnect("sa", uid="sa", pwd="12345")

用户寿命(天) 是否流失

head(data)
image.png

图片

R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化

阅读文章


转换数据,拟合决策树模型

建立决策树预测是否流失

CARTmodel = rpart
draw.tree(CARTmodel) 
image.png


随时关注您喜欢的主题


绘制决策树

输出决策树cp值

printcp(CARTmodel)
image.png

根据cp值对决策树进行剪枝

cp= CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"]
cp

prune(CARTmodel, cp= CARTmodel$cpCP"])  #剪枝

image.png

CARTmodel2 <- prune(CARTmo

image.png

对数据进行预测


(predict(CARTmodel2,datanew.test )) summary(CARTmodel2)
image.png

计算混淆矩阵和准确度

tab=table(tree.pred,datanew.test$是否流失)#得到训练集混淆矩阵

(tab[1,1]+tab[2,2])/sum(tab)
image.png

mse


mean((as.numeric(tree.pred) - as.numeric(datanew.test$是否流失))^2)
image.png

输出结果

CARTmodel2 
image.png
将表写进数据库里
sqlSave(channel,result_lossnew11,

变量重要程度

CARTmodel$varmportance
image.png

预测用户寿命.天.

CARTmodel = rpart(用户寿命.天. ~
image.png

绘制决策树

决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

输出决策树cp值

image.png

根据cp值对决策树进行剪枝

prune(CARTmodel, cp= CARTmodel$cptab
image.png
prune(CARTmodel
image.png

进行预测

predict(CARTmodel
image.png

输出结果

image.png
#mse

mean((as.numeric(tree.pred) - as.numeric(datanew.test$用户寿命.天.))^2)
## [1] 7713.91

变量重要程度

image.png

随机森林

随机森林是属于集成学习,其核心思想就是集成多个弱分类器以达到三个臭皮匠赛过诸葛亮的效果。

rf <- randomForest(datanew.train$用户寿命.天.  ~ 

MSE误差


mean(predict(rf)- datanew.train$用户寿命.天.  )^2
## [1] 0.007107568
image.png

变量重要程度

image.png
plot(d,center=TRUE,leaflab='none',
image.png

混淆矩阵

table(predict(rf), datanew.train$是否流失  )
##    
##       0   1
##   0  84  15
##   1  23 589
image.png
#变量重要程度
importance(rf)
image.png
image.png

chaid树

CHAID是一种高效的统计分箱技术,是商业上运用最成功的算法之一。通过统计检验方法,CHAID评估潜在预测变量的所有取值,合并对目标变量而言在统计意义上同质的取值成为一个分箱,保留那些有异质性的取值为单独的分箱,然后选择最佳的预测,成为决策树的第一个分支,因此每一个子节点都是同质的,此过程继续递推直至完成整个决策树。

image.png
plot(ct, mai
下载.png
image.png

ctree

是否流失

image.png
plot(ct,
image.png

混淆矩阵

table(predict(ct), datanew.train$是否流失)
##    
##       0   1
##   0  89   1
##   1  18 603

预测类别概率

tr.pred = predict(ct, newdata=datanew.train, type="prob")
tr.pred
image.png
将结果表写进数据库里
sqlSave(channel,resul


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds