R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化

《精品购物指南》是中国本土经营规模最大、最具影响力的时尚媒体品牌

由Kaizong Ye,Liao Bao撰写

1999年《精品购物指南》即进入全国报业广告十强,2005~2007连续三年获得国家新闻出版总署颁布的“全国生活服务类报纸竞争力10强”,并蝉联第一。

2013年,《精品购物指南》被国家新闻出版广电总局评为“全国百强报纸”。

在分析时,我们向客户演示了用R语言回归、anova方差分析、相关性分析可以提供的内容。

本研究使用对《精品购物指南》所做的一次调查结果作为本次案例分析的数据。试图分析目前阅读《精品购物指南》的群体特征,以及影响阅读《精品购物指南》的时间的因素,从而更好地对受众群体和市场做出分析。

第二节描述性统计

1. 数据预处理

image.png



##变量赋值
colnames(data)=c(
  "编号",
  "性别",
  "年龄",
  "婚姻状况",
  "受教育程度",
  "职业或身份",
  "个人月平均收入",
  "报摊购买",
  "个人订阅",
  "单位订阅",
  "赠阅",
  "借阅他人",
  "其他",
  "上班途中",
  "下班途中",
  "午休时间",
  "逛衔购物时",
  "不定时",
  "对《精品购物指南》的零购情况",
  "家人是否会提醒购买《精品》",
  "是第几选择",
  "家人是否阅读《精品》",
  "",
  "",
  "一直购买(或订阅)本报(习惯)",
  "豪华版内容吸引人",
  "普通版文章吸引人",
  "查找广告信息",
  "参加读者乐园版的活动",
  "逛商场购物需要",
  "价格便宜",
  "没有什么原因想起来就买",
  "其他",
  "住所",
  "工作场所",
  "车站或乘车路途",
  "娱乐场所",
  "其他场所",
  "多少人阅读同一份报纸",
  "阅读《精品》的时间",
  "每天读报时间",
  "对我消费有指导",
  "提高我的生活品位和档次",
  "信息实用性强",
  "关注社会新闻",
  "信息量大",
  "信息质量高",
  "报道领域全面",
  "内容贴近市场",
  "寻找有用的信息和广告",
  "放松自我",
  "通俗易懂",
  "广告信息丰富",
  "版面编排合理",
  "售价合理",
  "订阅或零购方便",
  "其他",
  "平均每月阅读几期《精品》",
  "首先欣赏豪华版",
  "先看标题,再拣有意思的看",
  "我只看自己喜欢的固定栏目",
  "看完喜欢的文章,再浏览其他内容",
  "只查找对自己有用的信息",
  "无目的地翻阅报纸",
  "如果未能看到某一期《精品》",
  "能够阅读完《精品》内容",
  "封面要闻",
  "百姓生活新闻",
  "北京都市新闻",
  "消费新闻",
  "读者乐园",
  "体坛新闻",
  "关注足球",
  "篮球时空",
  "绿茵评说",
  "精品回顾",
  "文化资讯",
  "影视介绍",
  "读书生活",
  "音乐欣赏",
  "外企专递",
  "留学必备",
  "充电课堂",
  "人才聚焦",
  "处世情感",
  "健康",
  "美食",
  "休闲旅游",
  "保险",
  "律师",
  "百货新品",
  "休闲宠物",
  "户外休闲",
  "美食",
  "家庭保健",
  "超市SHOPPER"
  ,"新品试验"
  ,"样品透视"
  ,"汽车时代"
  ,"电脑"
  ,"市场行情"
  ,"通讯网络"
  ,"楼市了望"
  ,"房产金融"
  ,"政策扫描"
  ,"家具世界"
  ,"家装热点"
  ,"选材指南"
  ,"饰品快递"
  ,"非常男人"
  ,"特别女人"
  ,"新新人类"
  ,"网络家庭"
  ,"扮美家居"
  ,"今日妈咪"
  ,"选题大众化"
  ,"信息实用性强"
  ,"可读性强"
  ,"帮助我消费选择"
  ,"趣味性强"
  ,"报道领域全面"
  ,"帮助我了解市场行情"
  ,"放松自我"
  ,"文字优美"
  ,"观点新颖"
  ,"版式活泼"
  ,"品位高雅"
  ,"风格突出"
  ,"广告内容丰富"
  ,"其他"
  ,"招商展览"
  ,"电脑"
  ,"通讯"
  ,"汽车"
  ,"房地产"
  ,"家电"
  ,"食品酒类"
  ,"旅游娱乐"
  ,"商场饭店"
  ,"服装服饰"
  ,"美容用品"
  ,"保健品"
  ,"医疗器械"
  ,"家居用品"
  
image.png

视频

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

探索见解

去bilibili观看

探索更多视频

image.png

删除缺失

data=complete.cases(data)

2.绘制不同变量之间的关系

  geom_point() + 
    geom_smooth(method=method, ...)
QQ截图20220627140736.png

ai-storytelling_1536x1536_600.jpg

R语言逐步回归、方差anova分析电影市场调查问卷数据可视化

阅读文章


从每个变量的直方图可以看到变量的大概分布情况。绘制各个变量的饼图可以看到基本人口信息的各个取值的所占的百分比。

image.png


随时关注您喜欢的主题


第三节 回归,方差分析与模型比较

1.相关性分析

for(i in 1:ncol(data))datacor[,i]=as.numeric(data[,i])

#数据归一化

data=scale(datacor)

查看性别和阅读《精品》的时间之间是否有相关关系

cor.test(datacor$"性别",  
         datacor$"阅读《精品》的时间")
##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$性别 and datacor$"阅读《精品》的时间"  
## t = 0.63616, df = 1995, p-value = 0.5247  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.02964101  0.05806894  
## sample estimates:  
##        cor  
## 0.01424136

检验的结果是,由于P =0.5247> 0.05,因此在0.05的显署性水平下,接受原假设,认为两者之间不具有相关关系。

查看婚姻状况和阅读《精品》的时间之间是否具有相关关系



cor.test(datacor$"婚姻状况",  
         datacor$"阅读《精品》的时间")
##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$婚姻状况 and datacor$"阅读《精品》的时间"  
## t = -1.7215, df = 1995, p-value = 0.08531  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.082238962  0.005358859  
## sample estimates:  
##         cor  
## -0.03851404

检验的结果是,由于P =0.08531> 0.05,因此在0.05的显署性水平下,所以接受原假设,认为两者之间不具有相关关系

查看受教育程度和阅读《精品》的时间之间是否具有相关关系


cor.test(datacor$"受教育程度",  
         datacor$"阅读《精品》的时间")

##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$受教育程度 and datacor$"阅读《精品》的时间"  
## t = -0.71111, df = 1995, p-value = 0.4771  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.05974084  0.02796468  
## sample estimates:  
##        cor  
## -0.0159187

检验的结果是,由于P =0.4771>0.05,因此在0.05的显署性水平下,接受原假设,认为两者之间不具有相关关系。

2.回归分析

查看共线性关系

which(abs(cormatrix)>0.6,arr.ind = T)

##                              row col  
## 编号                           1   1  
## 性别                           2   2  
## 年龄                           3   3

从结果看,没有相关系数大于0.6的不同变量。因此,变量间不存在共线性问题。

回归分析

summary(model)
image.png
image.png
image.png
image.png
image.png

从回归模型的结果来看,可以看被调查者的职业或身份,家人是否阅读《精品》`,以及豪华版内容是否吸引人等因素对被调查对象否阅读《精品》的时间有比较大的影响,p值小于0.05,因此该变量对被调查者选择去看报纸有显著的影响 。

3.模型筛选与比较

无常数项模型拟合

image.png
image.png
image.png
image.png
image.png

回归模型校正

利用qqPlot()函数提供的正态假设检验方法,它画出了在n-p-1个自由度的t分布下的学生化残差图形,再配合Shapiro检验得出检测结果,而Shapiro样本量的大小范围 配合下图可以发现除了Providence,所有的点都离直线很近,都落在置信区间内,这表明与正态性假相符。

library(car)  
qqPlot(model2,labels = row.names(datacor))
image.png

方差齐性

利用残差绘制曲线图并配合Durbin-Watson检验,此检验方法能够检测误差的序列相关性,再配合下表检验结果显著性为0.7604表示接受原假设,因此误差项独立性检验通过。

dwtest(model2)

##  
##  Durbin-Watson test  
##  
## data:  model2  
## DW = 2.0242, p-value = 0.7604  
## alternative hypothesis: true autocorrelation is greater than 0

方差分析

image.png

所有变量的p值都小于0.05,说明在0.05的显著水平上,不同特征的被调查对象的阅读精品时间之间有明显差别


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds