SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验

随着互联网的普及和电子商务的快速发展,网络购物已成为大学生日常生活中不可或缺的一部分。

由Kaizong Ye,Liao Bao撰写

大学生作为网络购物的主体力量,其消费观念、行为特征以及影响因素对于电子商务行业的发展具有重要的研究价值。

因此,本文旨在通过问卷调查的方式,帮助客户对大学生网络购物行为进行深入调查与分析,以期为电子商务企业提供有针对性的市场策略建议。

在本次调查中,我们精心设计了问卷,问卷内容涵盖了大学生网络购物的多个方面,包括购物频率、购物平台选择、购物动机、购物满意度等。

问卷题型设置上,我们采用了单选题和多选题两种形式,以确保调查结果的全面性和准确性。每个问题在数据表格中占据一列,方便后续的数据整理与分析。

在数据分析方面,我们采用了多种方法。首先,通过样本描述统计,我们利用频率分布表对样本进行了详细的分析,包括总样本百分比、有效百分比以及累积百分比等,这些数据为我们提供了大学生网络购物行为的基本概况。同时,我们还利用专业统计分析软件对数据进行处理,通过直方图和饼图直观地展示了每个变量状态的值,使得分析结果更加直观易懂。

其次,我们运用了因素分析的方法,通过解释变量之间的相关性来揭示数据结构。因子分析作为一种有效的数据分析工具,能够将大量变量归结为几个维度,从而简化数据结构。在本研究中,我们利用因子分析对大学生网络购物行为的影响因素进行了探究,进一步揭示了大学生网络购物行为背后的深层次原因。

此外,我们还采用了聚类分析的方法,特别是k-means聚类算法。这种方法有助于我们将具有相似网络购物行为特征的大学生群体进行归类,从而更好地理解不同群体之间的差异和共性。

最后,为了探究不同生活方式对大学生网络购物行为的影响,我们结合了交叉表和卡方检验。通过卡方检验,我们在显著性水平上检验了原始假设的合理性。随后,利用交叉表展示了不同生活方式类型的学生在网络购物行为上的差异,为电子商务企业针对不同生活方式的大学生制定个性化市场策略提供了有力支持。

用描述性统计

被调查学生性别统计:男生67人,女生140人。男女比例接近于1:2 。

image.png

视频

因子分析简介及R语言应用实例

探索见解

去bilibili观看

探索更多视频


视频

主成分分析PCA降维方法和R语言分析葡萄酒可视化实例

探索见解

去bilibili观看

探索更多视频


视频

KMEANS均值聚类和层次聚类:R语言分析生活幸福质量系数可视化实例

探索见解

去bilibili观看

探索更多视频

image.png

从性别比例的频数表格来看,女生有140个人,占比67.6%,男生为67个人占比32.4%。因此被调查者中女生居多,男生偏少。

然后我们查看所有年级的比例

image.png

从饼图中我们可以看到,大四年级的学生占绝大多数,其次是大三学生。

image.png

从频数的表格来看,可以发现大四学生为111个人占比53.6%大三学生有36个人占比17.4%,大二学生有37个人占比17.9%。

然后我们查看被调查者的月生活费情况。

image.png

行业生活费中我们可以看到,大部分被调查者的月生活费在1000元到两千元之间,然后是两千元到三千元之间。

image.png

图片

R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视化

阅读文章


从表格来看,我们可以发现生活费在五千元以上的人有十五个人占比7.2%,月生活费在四千元到五千元,有七个人占比3.4%。生活费在两千元到三千元的人有55个占比26.6%。

然后我们查看被调查者每月的网购频率

image.png


随时关注您喜欢的主题


从图中我们可以看到网购频率在3到5次的人占绝大多数。

image.png

从表格来看,我们可以发现网购频率在八次以上有28个人,占比13.5%。网购频率在6到8次之间的人有42个,占比20.3%。网络频率在3到5次的人有88个占比42.5。

信度分析

可靠性是指如果测量重复多次,则刻度产生一致结果的程度。 可靠性分析称为可靠性分析。 可靠性分析是通过获得规模中系统变异的比例来确定的,这可以通过确定从不同的规模管理获得的分数之间的关联来进行。 因此,如果可靠性分析中的关联度较高,则规模产生一致的结果,因此是可靠的。

image.png

一般来说,我们认为信度系数在0.8左右,较好的可信程度。从结果中我们可以看到系数在0.8左右,说明该调查有一定的可信度。

效度分析

有效性是概念, 结论或测量是有根据的,与真实世界准确对应的程度。 “有效”一词来自拉丁语有效性,意思强。 测量工具的有效性(例如,在教育中的测试)被认为是工具衡量其所要衡量的程度; 在这种情况下,有效性等同于准确性。检验变量是否适合于因子分析的常用方法是巴特利特球形检验)和检验。

本文生活方式量表的因子分析前提条件检验情况如表

image.png

表结果显示,球形度检验的近似卡方值为值为3259.28,小于说明原始矩阵不可能是单位阵,即原变量之间存在较高的相关性。度量值为,综合以上两点的验证结果得出本问卷的数据适合做因子分析。

因子分析

因子分析是通过解释变量之间的相关性来解释数据结构的方法。 因子分析通过将大量变量缩小为较小的一组潜在变量或因子将数据归结为几个维度。 它通常用于社会科学,市场研究和其他使用大数据集的行业。

因子分析是一种用于根据较少数量的潜在不可观察(潜在)“因素”对观察变量及其协方差结构进行建模的方法。这些因素通常被视为可能描述观察现象的广泛概念或观点。例如,获得一定社会水平的基本愿望可能解释了大部分的消费行为。这些不可观察的因素对社会科学家比观察到的定量测量更有趣。

为了使变量更好地适应因子分析的前提,我们需要根据调查结果净化初始变量。 常用的测量是变量的通用性(公因子方差),即单项对整体方差的贡献。 一般来说,需要初始变量来删除与变量不常用的变量,下一步是提取具有大于原始变量的变量共同性的因子。

image.png
image.png
image.png

通过上述分析,使用主成分分析提取因子,最大旋转因子的方差为了得到上述因子负荷量表,根据提取标准,提取大于因子负荷的特征值绝对值大于该因子。 这个比例从问题的问题中删除“您通常网购商品类型(服装服饰)的问题”保持负载值大于0.5问题。

因素的数量通常使用指数或特征值来确定。

提取正方形和负载列给出提取的因子方差贡献率 ,旋转后提取的共同因子的方差贡献因子由因子的数量给出特征值是一个二维空间图,可以更直观地显示每个因子的分布。

image.png
image.png

从上面的图可以看出,在第6个因子曲线出现明显的顶点,在第6个因子之前的曲线非常陡峭,而在第七个因子之后的曲线趋于平缓。在特征根和方差贡献表中,第一个常用因子解释变量的总方差,第二个共同因素解释变量的总方差第三个常见因素解释变量的总方差,第四个共同因素解释变量总方差的第五个共同因素解释变量总方差的第六个方差公开因素解释变量的总方差,累积贡献率,6个因子可以是变量信息的良好代表。

主成分分析中,由该因素的最高负荷变量的数量减少以得到最终因素,如下表所示:

image.png
image.png

从第一个因子的载荷中,我们可以发现在和最大的因素是因为”商品更新而进行网购”,”您选择网购的原因(时尚潮流) ,“您选择网购的原因(商品更新快) “ ,生活方式问题(追求时尚新颖的产品)”,是一种自发的、无意识的非计划性购物行为,而且具有一定的复杂性和情感因素,因此我们可以认为是冲动型购买。

聚类

k-means聚类是一种矢量量化的方法,最初来自于信号处理,在数据挖掘中受到聚类分析的欢迎。 k-means聚类旨在将n个观测值分为k个群集,其中每个观测属于具有最近平均值的群集,用作群集的原型。

问题在计算上是困难的(NP-hard);然而,通常采用有效的启发式算法并快速收敛到局部最优。这些算法通常通过两种算法所采用的迭代精化方法类似于高斯分布混合的期望最大化算法。此外,他们都使用集群中心来建模数据;然而,k均值聚类倾向于找到可比较空间范围的集群,而期望最大化机制允许集群具有不同的形状。

该算法与k-最近邻分类器有一个松散的关系,这是一种流行的用于分类的机器学习技术,由于名称中的k,常常与k-means混淆。可以在通过k-means获得的聚类中心上应用1最近邻分类器将新数据分类到现有的聚类中。这被称为最近的质心分类器或Rocchio算法。

通过对 这六个因子进行动态的聚类分析。根据统计原则,运用最终选择了三个聚类中心,即将大学生的生活方式分为三类,其判别分析结果如表所示。

聚类后,我们可以得到每个聚类中的样本数,各分群所含样本数及样本比例如表所示:

image.png

表中列出了六个要素得分中具体的三类组。 表中数据的积极分数越高,指数的识别程度越高; 负值越小,指数的识别程度就越高。

image.png
image.png

根据各分群生活方式因子的得分以及因子所包含的信息,对各分群进行描述与命名:

可以看到第一个类别中认同最大的是4号因子,用奖学金来购买,您通常网购商品类型(购票),您对网购担心的问题(个人隐私泄露),生活方式问题(愿意购买广告广泛宣传产品),通常网购商品类型(学习用品)。

卡方分析

卡方检验(也称为χ2检验)是任何统计假设检验,其中当零假设为真时,检验统计量的抽样分布为卡方分布。没有其他资格,“卡方检验”通常用作皮尔森卡方检验的简称。

卡方检验通常由平方误差或样本方差构成。遵循卡方分布的测试统计数据来自于独立正态分布数据的假设,这在许多情况下由于中心极限定理是有效的。可以使用卡方检验来尝试拒绝数据独立的零假设。

也被认为是一个卡方检验是一个这样一个渐近真实的测试,这意味着采样分布(如果零假设是真的)可以使样本大小变大,使其近似于所希望的卡方分布足够。卡方检验用于确定在一个或多个类别中预期频率和观察到的频率之间是否存在显着差异。

首先对性别与网购频率的维度做卡方检验,我们判断不同的性别的网购频率是否有差异。

image.png

从下面的表格中,我们可以看到一直小于0.05,拒绝零假设,表明不同性别的大学生在网购频率方面存在显著性差异。

image.png

从上面的直方图中,我们也可以判断出不同的性别对应的网购频率,明显的差别。

然后我们判断不同的月生活费对应的网络频率的维度做卡方检验,看是否有显著差别?

image.png
image.png

从上面的表格中,我们可以看到p小于0.05,因此认为不同的生活费对应的网购比例有显著的差别

QQ截图20191227152251.png

从上面的直方图来看,我们可以发现月生活费在1000到2000左右的网购次数最多最频繁。从网络购物频率的差异可以看到 ,可以认为不同的生活费对应的网购比例有显著的差别,不同性别的大学生在网购频率方面存在显著性差异。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds