随着互联网的普及和电子商务的快速发展，网络购物已成为大学生日常生活中不可或缺的一部分。

由Kaizong Ye，Liao Bao撰写

大学生作为网络购物的主体力量，其消费观念、行为特征以及影响因素对于电子商务行业的发展具有重要的研究价值。

因此，本文旨在通过问卷调查的方式，帮助客户对大学生网络购物行为进行深入调查与分析，以期为电子商务企业提供有针对性的市场策略建议。

× K-中心聚类：也叫K均值聚类，此过程根据MacQueen算法。K中心聚类适用于较大表，多达几十万行。首先K均值聚类将对聚类种子点进行一个非常完善的预测，然后开始迭代。交替执行两个操作，即将点指定给聚类和重新计算聚类中心。用户必须指定聚类数，然后才开始这一过程。当明确所需要分出的类别数时，采用快速聚类可以节省运算时间，其次该方法只能对样品聚类而不能对变量聚类、所使用的变量必须都是连续性变量。系统聚类：也叫分层聚类法，变量聚类的作用之一是减少变量的维度。可以对样品聚类，也可以对变量聚类，变量可以是连续性或分类变量。

在本次调查中，我们精心设计了问卷，问卷内容涵盖了大学生网络购物的多个方面，包括购物频率、购物平台选择、购物动机、购物满意度等。

问卷题型设置上，我们采用了单选题和多选题两种形式，以确保调查结果的全面性和准确性。每个问题在数据表格中占据一列，方便后续的数据整理与分析。

在数据分析方面，我们采用了多种方法。首先，通过样本描述统计，我们利用频率分布表对样本进行了详细的分析，包括总样本百分比、有效百分比以及累积百分比等，这些数据为我们提供了大学生网络购物行为的基本概况。同时，我们还利用专业统计分析软件对数据进行处理，通过直方图和饼图直观地展示了每个变量状态的值，使得分析结果更加直观易懂。

其次，我们运用了因素分析的方法，通过解释变量之间的相关性来揭示数据结构。因子分析作为一种有效的数据分析工具，能够将大量变量归结为几个维度，从而简化数据结构。在本研究中，我们利用因子分析对大学生网络购物行为的影响因素进行了探究，进一步揭示了大学生网络购物行为背后的深层次原因。

此外，我们还采用了聚类分析的方法，特别是k-means聚类算法。这种方法有助于我们将具有相似网络购物行为特征的大学生群体进行归类，从而更好地理解不同群体之间的差异和共性。

最后，为了探究不同生活方式对大学生网络购物行为的影响，我们结合了交叉表和卡方检验。通过卡方检验，我们在显著性水平上检验了原始假设的合理性。随后，利用交叉表展示了不同生活方式类型的学生在网络购物行为上的差异，为电子商务企业针对不同生活方式的大学生制定个性化市场策略提供了有力支持。

用描述性统计

被调查学生性别统计：男生67人，女生140人。男女比例接近于1:2 。

视频

因子分析简介及R语言应用实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

主成分分析PCA降维方法和R语言分析葡萄酒可视化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

KMEANS均值聚类和层次聚类：R语言分析生活幸福质量系数可视化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

从性别比例的频数表格来看，女生有140个人，占比67.6%，男生为67个人占比32.4%。因此被调查者中女生居多，男生偏少。

然后我们查看所有年级的比例

从饼图中我们可以看到，大四年级的学生占绝大多数，其次是大三学生。

从频数的表格来看，可以发现大四学生为111个人占比53.6%大三学生有36个人占比17.4%，大二学生有37个人占比17.9%。

然后我们查看被调查者的月生活费情况。

行业生活费中我们可以看到，大部分被调查者的月生活费在1000元到两千元之间，然后是两千元到三千元之间。

R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视化

阅读文章 ➜

从表格来看，我们可以发现生活费在五千元以上的人有十五个人占比7.2%，月生活费在四千元到五千元，有七个人占比3.4%。生活费在两千元到三千元的人有55个占比26.6%。

然后我们查看被调查者每月的网购频率

随时关注您喜欢的主题

从图中我们可以看到网购频率在3到5次的人占绝大多数。

从表格来看，我们可以发现网购频率在八次以上有28个人，占比13.5%。网购频率在6到8次之间的人有42个，占比20.3%。网络频率在3到5次的人有88个占比42.5。

信度分析

可靠性是指如果测量重复多次，则刻度产生一致结果的程度。可靠性分析称为可靠性分析。可靠性分析是通过获得规模中系统变异的比例来确定的，这可以通过确定从不同的规模管理获得的分数之间的关联来进行。因此，如果可靠性分析中的关联度较高，则规模产生一致的结果，因此是可靠的。

一般来说，我们认为信度系数在0.8左右，较好的可信程度。从结果中我们可以看到系数在0.8左右，说明该调查有一定的可信度。

效度分析

有效性是概念，结论或测量是有根据的，与真实世界准确对应的程度。 “有效”一词来自拉丁语有效性，意思强。测量工具的有效性（例如，在教育中的测试）被认为是工具衡量其所要衡量的程度; 在这种情况下，有效性等同于准确性。检验变量是否适合于因子分析的常用方法是巴特利特球形检验）和检验。

本文生活方式量表的因子分析前提条件检验情况如表

表结果显示，球形度检验的近似卡方值为值为3259.28，小于说明原始矩阵不可能是单位阵，即原变量之间存在较高的相关性。度量值为，综合以上两点的验证结果得出本问卷的数据适合做因子分析。

因子分析

因子分析是通过解释变量之间的相关性来解释数据结构的方法。因子分析通过将大量变量缩小为较小的一组潜在变量或因子将数据归结为几个维度。它通常用于社会科学，市场研究和其他使用大数据集的行业。

因子分析是一种用于根据较少数量的潜在不可观察（潜在）“因素”对观察变量及其协方差结构进行建模的方法。这些因素通常被视为可能描述观察现象的广泛概念或观点。例如，获得一定社会水平的基本愿望可能解释了大部分的消费行为。这些不可观察的因素对社会科学家比观察到的定量测量更有趣。

为了使变量更好地适应因子分析的前提，我们需要根据调查结果净化初始变量。常用的测量是变量的通用性（公因子方差），即单项对整体方差的贡献。一般来说，需要初始变量来删除与变量不常用的变量，下一步是提取具有大于原始变量的变量共同性的因子。

通过上述分析，使用主成分分析提取因子，最大旋转因子的方差为了得到上述因子负荷量表，根据提取标准，提取大于因子负荷的特征值绝对值大于该因子。这个比例从问题的问题中删除“您通常网购商品类型(服装服饰)的问题”保持负载值大于0.5问题。

因素的数量通常使用指数或特征值来确定。

提取正方形和负载列给出提取的因子方差贡献率，旋转后提取的共同因子的方差贡献因子由因子的数量给出特征值是一个二维空间图，可以更直观地显示每个因子的分布。

从上面的图可以看出，在第6个因子曲线出现明显的顶点，在第6个因子之前的曲线非常陡峭，而在第七个因子之后的曲线趋于平缓。在特征根和方差贡献表中，第一个常用因子解释变量的总方差，第二个共同因素解释变量的总方差第三个常见因素解释变量的总方差，第四个共同因素解释变量总方差的第五个共同因素解释变量总方差的第六个方差公开因素解释变量的总方差，累积贡献率，6个因子可以是变量信息的良好代表。

主成分分析中，由该因素的最高负荷变量的数量减少以得到最终因素，如下表所示：