在电信行业中,用户产品使用的流失情况对于企业而言是一个关键的运营指标。
理解用户为何流失以及预测其流失趋势,对于提升用户满意度、减少流失率及制定有效的营销策略至关重要。
本研究旨在通过SPSS软件,利用CHAID(Chi-squared Automatic Interaction Detector)决策树和逻辑回归方法,对电信用户的产品使用流失数据进行预测分析。
数据描述与初步分析
数据来源
本研究采用了电信公司的用户产品使用流失数据作为研究样本。
可下载资源
数据初步分析
首先,我们利用基本统计量和图表对用户产品使用流失状态的分布进行了初步分析。从数据中可以看出,不同产品使用状态的分布情况。其中,正常使用的产品状态占比最高,随后是主动停止产品使用的用户数量,而系统暂停和剪线停止的状态相对较少。
首先,我们通过基本统计量和图表来看下用户产品使用流失状态的分布。
通过初步分析,我们可以发现不同产品使用状态之间的频数和百分比差异,为后续的预测模型构建提供了重要的数据支持。
可以看到正常的产品状态是最多的,其次是主动停止产品使用的数量,然后是系统暂停和剪线停止的状态。
交叉分析
什么是交叉分析?交叉分析是指同时将两个或两个以上有一定联系的变量及其变量值按照一定的顺序交叉排列在一张统计表内,使各变量值成为不同变量的结点,从中分析变量之间的相关关系,进而得出科学结论的一种数据分析技术。
首先我们通过交叉分析来看下不同托付银行的流失状态有何差异?
首先我们可以看到不同的产品状态中,农业银行的用户数量是最多的,其次是建设银行。通过对比,主动停 和正常使用产品的用户托付银行的数量来看,用户是否流失,和他们使用的银行种类是有一定差别的,从chisq检验的结果来看,不同银行的客户流失有一定的差别,因此,p小于0.05。
然后我们对其他的变量进行检测:
随时关注您喜欢的主题
可以看到营业厅、是否有机顶盒、建筑类型等变量对用户是否流失都有一定的影响。
付费节目合计金额 * 模拟产品状态
从渐进 Sig. (双侧)的结果来看,小于0.05,因此付费节目合计金额变量对用户是否流失都有一定的影响。
模拟收视费合计金额 * 模拟产品状态
从渐进 Sig. (双侧)的结果来看,大于0.05,因此模拟收视费合计金额变量对用户是否流失没有一定的影响。
游戏业务合计金额 * 模拟产品状态
从渐进 Sig. (双侧)的结果来看,大于0.05,因此游戏业务合计金额变量对用户是否流失没有一定的影响。
预测算法
1 逻辑回归模型
逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。逻辑回归的数学模型和求解都相对比较简洁,实现相对简单。通过对特征做离散化和其他映射,逻辑回归也可以处理非线性问题,是一个非常强大的分类器。因此在实际应用中,当我们能够拿到许多低层次的特征时,可以考虑使用逻辑回归来解决我们的问题。对于客户是否流失的分类问题可以使用逻辑回归来预测。
参数求解与模型评估
在逻辑回归模型中,参数求解是关键步骤之一。统计学中常用的最大似然估计方法被广泛应用于逻辑回归的参数求解过程中。通过最大化数据的似然度(概率),我们可以找到一组最优参数,使得模型能够更好地拟合实际数据。在求解过程中,我们可以观察自变量的系数显著性,以评估模型的可靠性。
根据模型的输出结果,我们可以观察到托收银行、是否发放数字机顶盒、营业厅等自变量在模型中具有显著影响。
这说明这些变量与电信用户流失之间存在较强的关联性,为制定针对性的营销策略提供了有力支持。
看显著水平这一列就可以看到 自变量 的系数是否显著, 托收银行、是否发放数字机顶盒、营业厅3个自变量显著说明这个回归模型是可靠的。为了验证逻辑回归模型在电信用户流失预测中的有效性,我们进行了部分预测结果的展示。通过对比实际流失情况与模型预测结果,我们可以发现模型在大多数情况下能够准确预测用户的流失情况。这进一步证明了逻辑回归模型在电信用户流失预测中的实际应用价值。
部分预测结果:
CHAID决策树模型构建
本文采用CHAID决策树算法对电信客户的属性特征进行分析,以构建客户流失预测模型。CHAID算法基于卡方检验进行变量选择和分割,能够自动检测变量间的交互作用,并生成易于理解的决策树。通过对电信客户数据的处理和分析,我们成功构建了基于CHAID决策树的客户流失预测模型。
对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。
风险
从一侧的结果来看,可以发现误差较小,因子模型的准确度较高,模型产生的结果是可信的。
从生成的预测决策树来看,可以看到每个节点的用户流失数量的比例,可以看到沙河站和南口站的主动停的比例是最高的,因此这两个站用户流失比例最高,其次是天通苑站。再从下面一个节点是否发送数字机顶盒的结果来看,我们可以发现:再从下面一个节点是否发送数字机顶盒的结果来看,我们可以发现,给发送了数字机顶盒的用户来说,他们的流失率要相对于没有发送机顶盒的用户较低。
风险
从一侧的结果来看,可以发现误差较小,因子模型的准确度较高,模型产生的结果是可信的。
结论
从渐进 Sig. (双侧)的结果来看,付费节目合计金额变量对用户是否流失都有一定的影响。模拟收视费合计金额变量对用户是否流失没有一定的影响。游戏业务合计金额变量对用户是否流失没有一定的影响。从生成的预测决策树来看,可以看到每个节点的用户流失数量的比例,可以看到沙河站和南口站的主动停的比例是最高的,因此这两个站用户流失比例最高,其次是天通苑站。再从下面一个节点是否发送数字机顶盒的结果来看,我们可以发现:再从下面一个节点是否发送数字机顶盒的结果来看,我们可以发现,给发送了数字机顶盒的用户来说,他们的流失率要相对于没有发送机顶盒的用户较低。
部分预测结果:
最后我们得到了数据文件和结果文件:
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!