R语言逻辑回归模型的移动通信客户流失预测与分析

通过对某移动通信公司客户的流失数据分析,了解客户流失规律,建立流失预警系统,为客户关系管理服务。

由Kaizong Ye,Weilong Zhang撰写

某年度随机抽取的 1000 个移动通信客户。

因变量是他们来年的流失行为(0= 未流失,1=流失)。为了能够预测客户的未来行为,我们采集了下面这些来自当年的指标:客户等级(区分 VIP 客户等级):1,2,3,4;主叫次数(%):7 日内日均 主叫次数/90 日内日均主叫次数;被叫次数(%):7 日内日均被叫次数/90 日内 日均通话时长;费用(%):7 日内日均通话费用/90 日内日均通话费用。该数据 存放在 csv 文件 mobile.csv 中。


某移动通信公司客户的流失数据:

image.png

移动通信行业的现有企业中,一般情况下客户月流失率在3%左右,如果静态计算,则所有客户会在 2 - 3 年内全部流失。 在降低客户流失率方面,哪怕仅仅降低 1 %就意味着你至少可以有百万元的收入增长!客户是一个公司最宝贵的财富,因此保持客户并增长客户就是头等重要的事情,同是又是很困难的一项任务。

因此本文试图通过逻辑回归模型来帮助客户对某移动通信公司客户的流失数据分析,了解客户流失规律,建立流失预警系统,为客户关系管理服务。


视频

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

探索见解

去bilibili观看

探索更多视频

读取数据,并且查看数据概况

image.png

绘制变量之间的散点图

image.png

从上面的图中,我们可以看到各个变量之间的相关关系,其中主叫次数和被叫次数呈正相关关系,通话时长和费用也成正相关关系。

image.png

 

image.png
image.png
image.png
image.png

然后绘制各个自变量和因变量(流失)的关系散点图,可以看到他们之间关系不是十分明显,从次数和流失的散点图来看,可能有正相关的关系,因此进行逻辑回归模型的分析。

划分训练集

split <- sample(1:nrow(data),nrow(data)*(2/3))

建立逻辑回归模型

效应的显著性检验

image.png

优势比解释

则客户等级每增加1个单位,客户流失的估计值变为exp(-0.4311)= 0.6497939,因此,客户等级越高,客户流失越低

则主叫次数 每增加1个单位,客户流失的估计值变为exp( -0.6579)=  0.5179379,因此,主叫次数越高,客户流失越低

则被叫次数 每增加1个单位,客户流失的估计值变为exp(-2.4936)= 0.08261203,因此,被叫次数 越高,客户流失越低

Logistics逻辑回归拟合的解释

从输出结果可以看出 ,回归方程为流失=   2.7885 -0.5801客户等级-0.6756主叫次数 -2.6843被叫次数-0.5125通话时长+0.7565费用,变量和的统计量的估计值分别为-0.5801,-0.6756, -2.6843, -0.5125和0.7565,除了通话时长以外由对应的值都比显著性水平0.05小,可得4个偏回归系p数在显著性水平0.05下均显著不为零。因此,可以认为客户等级、主叫次数、被叫次数和费用对客户流失具有显著的影响。进一步地剩余方差的估计值,deviance统计量的估计值为898.52 ,说明,回归方程效果较好。


图片

SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析

阅读文章


效应的置信区间

置信区间是给定自变量值后,由回归方程得到的的流失预测值(实0y际上是的平均值)的置信区间;预测区间是实际值的置信区间,在这里称为预测区间。0y0y预测区间要比置信区间稍大,命令与显示结果如下


随时关注您喜欢的主题


image.png

拟合优度与偏差

混淆矩阵

image.png

残差分析:

    残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。命令语句为plot(lm.1),显示结果如下

Logistics模型的残差:皮尔逊残差与标准化残差

image.png
image.png
image.png
image.png

左上图是拟合值与残差的散点图,从图上可以发现,除去第3个离群点外,所有点基本上是随机地分散在纵坐标值为-1和+1的两条平行线之间,这说明随机误差项具有同方差性;左下图是拟合值与残差的标准差的散点图,其意义与上面类似;右上图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;右下图的CooK距离图进一步证实第3个观测值是一个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。

联表的Cochran-Mantel-Haenszel检验

image.png

CMH统计量=1926.2, df=1815, P-value=0.034.

由于p值小于0.05,因此可以认为不同的客户等级客户流失和主叫次数之间不是相互独立的。

总结

   这里只使用此模型对我国移动通信市场作出粗略的线性估计.我们猜测只是由于影响客户流失的因素复杂,如通信公司的经营状况、客户心理等等,并最终反映在客户流失行为上来 ,表现在客户流失的高低.此外,移动通信市场是一个动态的过程,客户作为通信产品的需求者与供应者,通过流失率来表达对价格水平的意见. 当然,值得注意的是,客户流失并不是由上述因素来决定,还有其他的影响因素。通过回归分析可以发现,客户流失与主叫次数、通话时长息息相关。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds