在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上。
“用户就是上帝”促使众多的企业不惜代价去争夺尽可能多的客户。但是企业在不惜代价发展新用户的过程中,往往会忽视或无暇顾及已有客户的流失情况,结果就导致出现这样一种窘况:一边是新客户在源源不断地增加,而另一方面是辛辛苦苦找来的客户却在悄然无声地流失。
1 概述
1.1 项目背景:
因此对老用户的流失进行数据分析从而挖掘出重要信息帮助企业决策者采取措施来减少用户流失的事情至关重要,迫在眉睫。
1.2 目的:
一是寻找关键因子,比如探索用户离网的影响因素,根据影响因素判断用户离网发生的概率。通过研究现有套餐产品客户在呼叫通话、业务使用等各方面的行为特征,找到关键影响因子;
二是构建预测模型:采用数据挖掘监督类模型技术,训练得到潜在客户预测模型,用于预测将会选择该类套餐产品的潜在流失用户群,并以概率形式量化之。如果已经建立了Logistic回归模型,则可以根据模型,预测在不同的自变量情况下,客户流失的概率有多大;
三是判别:实际上跟预测有些类似,根据Logistic模型,判断客户有多大的可能性将会流失。这种技术与线性回归类似,只是用分类目标字段代替了数值字段,而在目标含有两个截然不同的类别时可以使用二项模型;
四是推送营业前台:通过营销管理平台,直接将高概率产品目标流失客户群推送到营业厅、短信及网站、社区经理等营销渠道,将挽留策略和产品在合适的时间、以合适的语言推荐给合适的客户,从而赢得营销。
客户流失模型需要完成两个方面的任务,即分析流失客户的特征,导致客户流失的因素及客户流失在这些因素上的分布情况,还有就是得出潜在的流失客户群。
深入了解用户画像及行为偏好,挖掘出影响用户流失的关键因素,并通过算法预测客户访问的转化结果,从而更好地完善产品设计、提升用户体验。
1.3 数据说明:
此次数据是携程用户一周的访问数据,为保护客户隐私,已经将数据经过了脱敏,和实际商品的订单量、浏览量、转化率等有一些差距,不影响问题的可解性。
2 读取数据
==========
# 显示全部特征 df.head()
视频
Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例
视频
逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例
3 切分数据
# 划分训练集,测试集 X\_train, X\_test, y\_train, y\_test = train\_test\_split(X, y, test\_size=0.2, random\_state=666)
3.1 理解数据
可以看到变量比较的多,先进行分类,除去目标变量label,此数据集的字段可以分成三个类别:订单相关指标、客户行为相关指标、酒店相关指标。
4 特征工程
# 用训练集进行数据探索 train = pd.concat(\[X\_train,y\_train\],axis=1)
4.1 数据预处理
4.1.1 删除不必要的列
X_train.pop("sampleid") X_test.pop("sampleid") train.pop("sampleid")
4.1.2 数据类型转换
字符串类型的特征需要处理成数值型才能建模,将arrival和d相减得到”提前预定的天数”,作为新的特征
# 增加列 # 将两个日期变量由字符串转换为日期格式类型 train\["arrial"\] = pd.to_datimetain\["arrval"\]) X\_tst\["arival"\] = d.to\_daetime(X_est\["arival"\]) # 生成提前预定时间列(衍生变量) X\_trin\["day\_adanced"\] = (X_rain\["arival"\]-Xtrain\["d"\]).dt.days ## 删除列 X_tran.dro(columns="d","arrivl"\],inpace=True)
4.1.3 缺失值的变量生成一个指示哑变量
============================
zsl = tain.isnll().sum()\[tain.isnll(.sum()!=0\].inex
4.1.4 根据业务经验填补空缺值
ordernum_oneyear 用户年订单数为0 ,lasthtlordergap 11%用600000填充 88%用600000填充 一年内距离上次下单时长,ordercanncelednum 用0填充 用户一年内取消订单数,ordercanceledprecent 用0t填充 用户一年内取消订单率 242114 242114 -为空 有2种情况 1:新用户未下订单的空-88.42% 214097 2.老用户1年以上未消费的空 增加编码列未下订单新用户和 1年未下订单的老用户
tkq = \["hstoryvsit\_7ordernm","historyviit\_visit\_detaipagenum","frstorder\_b","historyvi # tbkq = \["hitoryvsit\_7dernum","hisryvisit\_isit_detailagenum"\] X_train\[i\].fillna(0,inplace=True)
## 一部分用0填充,一部分用中位數填充 # 新用戶影響的相關屬性:ic\_sniti,cosuing\_cacity n\_l = picesensitive","onsmng\_cpacty"\] fori in n_l X\_trini\]\[Xra\[X\_trinnew_ser==1\].idex\]=0 X\_est\[i\]\[X\_test\[X\_test.nw\_user==1\].inex\]=0
4.1.5 异常值处理
将customer\_value\_profit、ctrip_profits中的负值按0处理
将delta\_price1、delta\_price2、lowestprice中的负值按中位数处理
uv\_pre -24小时历史浏览次数最多酒店历史uv. cr\_pre -0,中位数填充 -24小时历史浏览次数最多酒店历史cr -0,中位数填充 29397 -为空 1.用户当天未登录APP 28633 2.刚上线的新酒店178 586 无uv,cr记录 编码添加 该APP刚上线的新酒店 764 29397
customereval_pre2 用0填充-24小时历史浏览酒店客户评分均值, landhalfhours -24小时内登陆时长 -用0填充28633 -为空:用户当天未登录APP 28633
hotelcr ,hoteluv -中位数填充 797
刚上新酒店 60 #未登录APP 118
avgprice 0 填充一部分价格填充为0 近一年未下过订单的人数,cr 用0填充,
price\_sensitive -0 ,中位数填充 价格敏感指数,consuming\_capacity -0 中位数填充 消费能力指数 226108 -为空情况 1.从未下过单的新用户214097 2.12011个人为空原因暂不明确
for f in flter_two: a = X_trin\[\].median() X\_tran\[f\]\[X\_train\[f\]<0\]=a X\_test\[f\]\[X\_est\[\]<0\]=a tran\[f\]\[train\[f\]<0\]=a
4.1.6 缺失值填充
趋于正态分布的字段,使用均值填充:businessrate\_pre2、cancelrate\_pre、businessrate_pre;偏态分布的字段,使用中位数填充.
def na_ill(df): for col in df.clumns: mean = X_trai\[col\].mean() dfcol\]=df\[col\].fillna(median) return
## 衍生变量年成交率 X\_train\["onear\_dalate"\]=\_tain\["odernum\_onyear"\]/X\_tran"visinum\_onyar"\] X\_st\["onyardealae"\]=X\_st\["orernum_neyear"\]/Xtest\[visitumonyear"\] X_al =pd.nca(\[Xtin,Xtes)
#决策树检验 dt = Decsionr(random_state=666) pre= dt.prdict(X_test) pre\_rob = dt.preicproa(X\_test)\[:,1\] pre_ob
4.2 数据标准化
================
scaler = MinMacaer() #决策树检验 dt = DeonTreasifi(random_state=666)
5 特征筛选
5.1 特征选择-删除30%列
X\_test = X\_test.iloc\[:,sp.get_spport()\] #决策树检验 dt = DecisonreeClssifie(random_state=666) dt.fit(X\_trin,y\_tain) dt.score(X\_tst,y\_est) pre = dt.pdict(X_test) pe\_rob = dt.redicproba(X\_test)\[:,1\] pr_rob uc(pr,tpr)
5.2 共线性/数据相关性
#共线性--严重共线性0.9以上,合并或删除 d = Xtrai.crr() d\[d<0.9\]=0 #赋值显示高相关的变量 pl.fufsiz=15,15,dpi200) ssheatp(d)
6 建模与模型评估
6.1 逻辑回归
随时关注您喜欢的主题
y\_prob = lr.preictproba(X\_test)\[:,1\] y\_pred = lr.predict(X\_test fpr\_lr,pr\_lr,teshold\_lr = metris.roc\_curve(y\_test,y\_prob) ac\_lr = metrcs.aucfpr\_lr,tpr_lr) score\_lr = metrics.accuracy\_score(y\_est,y\_pred) prnt("模准确率为:{0},AUC得分为{1}".fomat(score\_lr,auc\_lr)) prit("="*30
6.2 朴素贝叶斯
6.2 朴素贝叶斯
gnb = GasinNB() # 实例化一个LR模型gnb.fi(trai,ytran) # 训练模型y_prob = gn.pic_proba(X_test)[:,1] # 预测1类的概率y_pred = gnb.preict(X_est) # 模型对测试集的预测结果fpr_gnb,tprgnbtreshold_gb = metrics.roc_crve(ytesty_pob) # 获取真阳率、伪阳率、阈值aucgnb = meic.aucf_gnb,tr_gnb) # AUC得分scoe_gnb = merics.acuray_score(y_tes,y_pred) # 模型准确率
6.3 支持向量机
s =SVkernel='f',C=,max_ter=10,randomstate=66).fit(Xtrain,ytrain)y_rob = sc.decsion_untio(X_st) # 决策边界距离y_ed =vc.redit(X_test) # 模型对测试集的预测结果fpr_sv,tpr_vc,theshld_sv = mtris.rc_urv(y_esty_pob) # 获取真阳率、伪阳率、阈值au_vc = etics.ac(fpr_sc,tpr_sv) # 模型准确率scre_sv = metrics.ccuracy_sore(_tst,ypre)
6.4 决策树
dtc.fit(X_tran,_raiproba(X_test)[:,1] # 预测1类的概率y_pred = dtc.predct(X_test # 模型对测试集的预测结果fpr_dtc,pr_dtc,thresod_dtc= metrcs.roc_curvey_test,yprob) # 获取真阳率、伪阳率、阈值
6.5 随机森林
c = RndoForetlassiir(rand_stat=666) # 建立随机森rfc.it(X_tain,ytrain) # 训练随机森林模型y_rob = rfc.redict_poa(X_test)[:,1] # 预测1类的概率y_pedf.pedic(_test) # 模型对测试集的预测结果fpr_rfc,tp_rfc,hreshol_rfc = metrcs.roc_curve(y_test,_prob) # 获取真阳率、伪阳率、阈值au_fc = meris.auc(pr_rfctpr_fc) # AUC得分scre_rf = metrcs.accurac_scor(y_tes,y_ped) # 模型准确率
6.6 XGboost
# 读训练数据集和测试集dtainxgbatrx(X_rai,yrain)dtest=g.DMrx(Xtest# 设置xgboost建模参数paras{'booser':'gbtee','objective': 'binay:ogistic','evlmetric': 'auc'# 训练模型watchlst = (dtain,'trai)bs=xgb.ran(arams,dtain,n_boost_round=500eva=watchlst)# 输入预测为正类的概率值y_prob=bst.redict(dtet)# 设置阈值为0.5,得到测试集的预测结果y_pred = (y_prob >= 0.5)*1# 获取真阳率、伪阳率、阈值fpr_xg,tpr_xgb,heshold_xgb = metricsroc_curv(test,y_prob)aucxgb= metics.uc(fpr_gb,tpr_xgb # AUC得分score_gb = metricsaccurac_sore(y_test,y_pred) # 模型准确率print('模型准确率为:{0},AUC得分为:{1}'.format(score_xgb,auc_xgb))
6.7 模型比较
plt.xlabel('伪阳率')plt.ylabel('真阳率')plt.title('ROC曲线')plt.savefig('模型比较图.jpg',dpi=400, bbox_inches='tight')plt.show()
6.8 重要特征
ea = pd.Sries(dct(list((X_trclumsfc.eatre_imortancs_))))ea.srt_vlues(acedig=Falsefea_s = (fa.srt_vauesacnding=alse)).idex
6.9 流失原因分析
- cityuvs和cityorders值较小时用户流失显著高于平均水平,说明携程平台小城市的酒店信息缺乏,用户转向使用小城市酒店信息较全的竞品导致用户流失
- 访问时间点在7点-19点用户流失比例高与平均水平:工作日推送应该避开这些时间点
- 酒店商务属性指数在0.3-0.9区间内用户流失大于平均水平,且呈现递增趋势,说明平台商务指数高的酒店和用户期望有差距(价格太高或其他原因?), 商务属性低的用户流失较少
- 一年内距离上次下单时长越短流失越严重,受携程2015年5月-2016年1月爆出的负面新闻影响较大,企业应该更加加强自身管理,树立良好社会形象
- 消费能力指数偏低(10-40)的用户流失较严重,这部分用户占比50%应该引起重视
- 价格敏感指数(5-25)的人群流失高于平均水平,注重酒店品质
- 用户转化率,用户年订单数,近1年用户历史订单数越高,24小时内否访问订单填写页的人群比例越大流失越严重,需要做好用户下单后的追踪体验, 邀请填写入住体验,整理意见作出改进
- 提前预定天数越短流失越严重用户一年内取消订单数越高流失越严重
6.10 建议:
- 考虑占取三四线城市和低端酒店范围的市场份额
- 用户易受企业负面新闻影响,建议企业勇于承担社会责任,加强自身管理,提高公关新闻处理时效性,树立品牌良好形像
- 在节假日前2-3周开始热门景点酒店推送
- 做好酒店下单后的追踪体验,邀请填写入住体验,并整理用户意见作出改进
7 客户画像
7.1 建模用户分类
# 用户画像特征user_feature = ["decisiohabit_user,'starprefer','lastpvgap','sid','lernum",'historyvisit_visit_detaipagenum',"onyear_dealrat]# 流失影响特征fea_lis = ["cityuvs","cityorders","h","businessrate_pre2"# 数据标准化 Kmeans方法对正态分布数据处理效果更好scaler = StanardScalr()lo_atribues = pdDatarame(scr.fittransfrm(all_cte),columns=all_ce.coluns)# 建模分类Kmens=Means(n_cluste=2,rndom_state=0) #333Keans.fi(lot_attributes # 训练模型k_char=Kmenscluster_centers_ # 得到每个分类plt.figure(figsize=(5,10))
7.2 用户类型占比
types=['高价值用户','潜力用户']ax.pie[1], raius=0.,colors='w')plt.savefig(用户画像.jpg'dpi=400, box_inchs='tigh')
7.3 高价值用户分析 :
占比19.02,访问频率和预定频率都较高,消费水平高,客户价值大,追求高品质,对酒店星级要求高,客户群体多集中在老客户中,
建议:
多推荐口碑好、性价比高的商务酒店连锁酒店房源吸引用户;
在非工作日的11点、17点等日间流量小高峰时段进行消息推送。
为客户提供更多差旅地酒店信息;
增加客户流失成本:会员积分制,推出会员打折卡
7.4 潜力用户分析
占比:80.98% 访问频率和预定频率都较低,消费水平较低,对酒店星级要求不高,客户群体多集中在新客户中,客户价值待挖掘 建议:
因为新用户居多,属于潜在客户,建议把握用户初期体验(如初期消费有优惠、打卡活动等),还可以定期推送实惠的酒店给此类用户,以培养用户消费惯性为主;
推送的内容应多为大减价、大酬宾、跳楼价之类的;
由于这部分用户占比较多,可结合该群体流失情况分析流失客户因素,进行该群体市场的开拓,进一步进行下沉分析,开拓新的时长。
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!