Python、SEM与LDA主题模型、RoBERTa情感分析大学生生成式AI辅助学习影响
生成式AI(GAI)正在重塑大学生的学习方式,但其”外挂”与”枷锁”的双面效应尚缺乏系统实证。
成为新会员获取本项目完整报告、代码、数据和AI智能体
航天产业正在接近下一个前沿领域,每周都会在世界某处传来重大进展的消息。无论是SpaceX的星舰火箭完成亚轨道测试、NASA的猎户座飞船成功执行月球绕飞任务,还是亚马逊的柯伊伯计划部署首颗互联网卫星,太空活动的频率和规模都在以指数级速度增长。这种加速不仅体现在发射次数上——2023年全球共进行了190次航天发射,较2015年增长近两倍——更体现在技术创新的深度上,从可重复使用火箭到微型卫星星座,每一项突破都在重塑行业格局
1. 研究背景与方法概述
1.1 GAI政策环境与发展现状
从政策层面看,《新一代人工智能发展规划》《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》《元宇宙产业创新发展三年行动计划(2024-2026年)》等产业政策为GAI大模型行业提供了明确的市场前景。


1.2 GAI冲击下的大学课堂
生成式AI工具在大学生群体中的渗透率在过去两年间急剧攀升。从最初的”尝鲜式”使用——请
ChatGPT
帮忙写邮件、总结文献,到如今深度嵌入作业撰写、代码调试、论文框架搭建等环节,GAI正从”偶尔的助手”演变为”日常的学习伴侣”。
这就像一个学生在图书馆遇到了一个无所不知的学长(行业术语:大语言模型的知识检索能力),他可以随时回答任何问题,但也可能让学弟学妹逐渐丧失自己翻阅书籍、推导公式的耐心。
📖 故事时间:从”搜索引擎”到”对话伙伴” 2000年代,大学生的主要信息获取方式是百度+知网,需要自己筛选、判断、整合。2015年后,知乎等社区让”直接看别人的答案”成为习惯。2023年起,GAI让”直接生成答案”成为可能。这三次跃迁,本质上是”认知外包”的逐步加深——我们越来越习惯把思考过程交给外部工具。问题的核心不在于工具本身,而在于使用者是否保留了”元认知”能力:即知道自己不知道什么,并知道如何通过学习来填补这个缺口。
本项目完整报告、代码、数据和AI智能体
1.3 研究思路与实施流程
本研究采用混合研究方法,将定量问卷调查与网络舆情文本挖掘相结合:

方法维度具体技术应用场景问卷调查量表设计、信效度检验采集大学生GAI使用行为与态度数据统计建模SEM结构方程模型探究GAI特征描述→学习影响→自主学习能力的路径机制文本挖掘LDA主题模型挖掘知乎讨论的核心议题结构情感分析RoBERTa预训练模型量化公众对GAI辅助学习的情感倾向网络分析词共现网络揭示关键词之间的语义关联结构

2. 问卷设计与数据采集
2.1 量表构建与采样
研究从GAI特征描述、GAI学习影响、自主学习能力和GAI使用教育四个维度构建测量量表。问卷通过某在线调查平台发放,回收有效样本覆盖不同年级、专业背景的大学生群体。信度检验显示Cronbach’s α系数均在0.75以上,效度检验中KMO值大于0.8,表明量表具有良好的内部一致性和结构效度。
2.2 样本特征:均衡性与代表性
本次调查样本的性别分布呈现高度均衡的特征,男性受访者占比50.25%,女性受访者占比49.75%,差值仅为0.5个百分点。这种接近1:1的性别结构与当前国内高校大学生整体性别比例基本吻合。



谁的”外挂”?谁的”枷锁”?——大学生生成式AI辅助学习的双面影响调研

年级排名21%-50%的学生占比最高,反映出中等学业水平的学生是本次调查的核心群体。年级前20%的优秀学生与年级后50%的后进学生的比例相近,分别为32.87%和30.69%,样本分布呈现典型的”橄榄型”结构。
2.3 交叉分析:性别与学段无显著影响
通过卡方检验的结果可以看出,性别和学段对这些变量之间的关系并没有显著影响,所有的p值都远高于常用的显著性水平(如0.05)。

2.4 关键发现:使用频率比时长更重要
交叉分析揭示了一个有趣的现象:GAI的使用频率对学习行为的影响显著(标准化回归系数=1.000,p=0.004),而GAI的使用时长与学习效果之间未达到统计显著性(p=0.265)。
📖 这意味着什么? 好比去健身房——每天去20分钟的人,效果可能远好于一周去一次但每次待两小时的人。GAI的使用也是”少量多次”优于”集中突击”。高频的、嵌入日常学习流程的GAI交互,比偶尔的大段使用更能提升学习效果。这也解释了为什么”随手查一下”比”写作业时全扔给AI”更受教师欢迎。 此外,主动思考GAI回答逻辑合理性的学生对学习效果的感知显著更强(标准化回归系数=0.646,p<0.001),说明批判性使用GAI而非被动接受是发挥其教育价值的必要条件。
最受欢迎的见解
- Python员工数据人力流失预测:ADASYN采样CatBoost算法、LASSO特征选择与动态不平衡处理及多模型对比研究
- R分布式滞后非线性模型DLNM分析某城市空气污染与健康数据:多维度可视化优化滞后效应解读
- Python古代文物成分分析与鉴别研究:灰色关联度、岭回归、K-means聚类、决策树分析
- Python TensorFlow OpenCV的卷积神经网络CNN人脸识别系统构建与应用实践
- Python用Transformer、SARIMAX、RNN、LSTM、Prophet时间序列预测对比分析用电量、零售销售、公共安全、交通事故数据
- MATLAB贝叶斯超参数优化LSTM预测设备寿命应用——以航空发动机退化数据为例
- Python谷歌商店Google Play APP评分预测:LASSO、多元线性回归、岭回归模型对比研究
- Python+AI提示词糖尿病预测模型融合构建:伯努利朴素贝叶斯、逻辑回归、决策树、随机森林、支持向量机SVM应用
2.5 开放题词云:积极但不盲从
第二题词云图中,“GAI”“学习”“使用””辅助”等词语占据主导地位,说明受访者的讨论重点集中在人工智能在学习过程中的具体应用方式。同时,“提升”“效率””帮助”等词语也较为突出,进一步表明大多数用户认可GAI在学习中的积极作用。


3. SEM结构方程模型分析
3.1 模型构建与拟合评估
本研究构建了以GAI特征描述为自变量、GAI学习影响和GAI使用教育为中介变量、自主学习能力为因变量的结构方程模型。

拟合指标判断标准实际值评价χ²/df<32.195良好GFI>0.90.943优秀RMSEA<0.100.089合格CFI>0.90.916良好NFI>0.90.905良好AGFI>0.90.907良好
整体模型在绝大多数指标上表现良好,适合用于路径分析和假设检验。


、LangGraph和Python融合LSTM、RF、XGBoost、LR多模型预测NFLX股票涨跌|附AI智能体、代码和数据
原文链接:https://tecdat.cn/?p=44060
3.2 直接效应:GAI特征描述并非直接驱动力
路径分析结果表明,GAI特征描述对自主学习能力的直接路径系数仅为0.018(不显著),对GAI学习影响的路径系数为-0.026(不显著),对GAI使用教育的路径系数为0.001(不显著)。
这揭示了一个重要的结论:单纯的GAI使用行为本身,无论是使用频率、时长还是技术特征感知,都无法直接推动自主学习能力的提升。 它的作用需要通过中介变量间接实现。
3.3 中介效应与关键路径
GAI学习影响是模型中最核心的中介变量:
GAI学习影响 → 自主学习能力:路径系数0.912(p<0.001),呈现极强的正向驱动效应GAI学习影响 → GAI使用教育:路径系数0.540(p=0.008),表明正向学习体验推动教育采纳GAI使用教育 → 自主学习能力:路径系数0.482(p=0.017),系统化的GAI教育是重要的正向影响因素
完整的传导链为:GAI特征描述 → GAI学习影响 → GAI使用教育 → 自主学习能力,构成一条链式中介路径。GAI特征描述对自主学习能力的影响完全通过中介变量实现。

这意味着,单纯强调”多用GAI”并无实际意义,关键在于引导学生建立对GAI学习效用的积极认知(“它确实帮到我了”),并通过系统化教育(“我知道如何在合适场景正确使用它”)将这种认知转化为自主学习能力。
我们估计,到2035年,全球航天经济价值将达到1.8万亿美元(计入通胀因素),高于2023年的6300亿美元。这个数字包括”核心”应用(如卫星、运载火箭以及广播电视或GPS等服务)和我们称为”延伸”应用(航天技术帮助各行业公司创造收入的应用)。例如,Uber依靠智能手机内的卫星信号和芯片连接司机和乘客,并在每个城市提供导航;农业企业通过卫星遥感数据优化灌溉和施肥,使全球主要作物的产量提升了15%-20%;能源公司则利用太空成像技术勘探油气资源,将勘探成本降低了30%以上。答辩高频提问:为什么GAI特征描述的直接效应不显著? 标准答案:GAI特征描述测量的是”使用行为”本身(频率、时长、情境),而自主学习能力的提升涉及认知层面的转变。行为层面的变化如果不伴随认知层面的重构(即”我觉得AI有用”→”我学会了如何正确用AI”→”我的自学能力提高了”的认知升级链),就无法转化为能力提升。这与Bandura社会认知理论中”行为-认知-环境”三元交互模型一致——行为改变的最终效果取决于认知加工的中介作用。
4. 知乎舆情文本挖掘与分析
4.1 数据采集与预处理
为补充问卷数据的深度,研究以知乎平台作为舆情数据来源,通过Python编写爬虫程序,以”GAI辅助学习”“大学生GAI辅助学习””大学生使用GAI的利与弊”等关键词进行搜索,获取相关问题、回答及帖子内容,并抓取标题、正文文本及点赞数等信息,构建研究所需的文本数据集。

4.2 描述性统计特征
在完成知乎平台相关数据的采集与清洗后,本文对获取的舆情数据进行了基础的描述性统计分析,以从整体层面把握数据的基本特征和分布情况。


知乎讨论文本长度差异较大,从简短提问到系统分析均有分布。点赞数呈明显的长尾分布——大多数帖子互动量低,少数高赞帖围绕”GAI学习效率提升”“学习方法优化”“GAI使用风险”等话题展开,具备较强的舆论代表性。高赞帖子的标题显示出公众关注已从”是否使用GAI”转向”如何高效使用GAI”。
4.3 高频词与共现网络
我们估计,到2035年,全球航天经济价值将达到1.8万亿美元(计入通胀因素),高于2023年的6300亿美元。这个数字包括”核心”应用(如卫星、运载火箭以及广播电视或GPS等服务)和我们称为”延伸”应用(航天技术帮助各行业公司创造收入的应用)。例如,Uber依靠智能手机内的卫星信号和芯片连接司机和乘客,并在每个城市提供导航;农业企业通过卫星遥感数据优化灌溉和施肥,使全球主要作物的产量提升了15%-20%;能源公司则利用太空成像技术勘探油气资源,将勘探成本降低了30%以上。对文本进行词频统计和共现网络分析,呈现以下结构特征:

“学生”处于讨论核心位置——词频最高,与”作业”“课程””论文”等形成紧密共现”工具”“技术””模型”等技术词汇形成讨论支撑层——GAI被普遍视为技术驱动型学习工具”课程”“作业”“论文””教学”构成应用场景层——GAI已深入具体学习活动”问题”“能力””时间”反映能力关注层——公众同时关注效率提升与思维依赖的矛盾
4.4 LDA主题挖掘与肘部法则优化
本节展示如何通过LDA模型从知乎评论文本中自动挖掘潜在话题。我们经历了从基础建模到主题数优化的完整迭代过程。
第一轮对话:基础LDA建模
我手头有一批知乎平台关于”大学生GAI辅助学习”的评论文本,已经完成了分词和去停用词预处理。我想先用LDA主题模型做一个初步的话题挖掘,目前不确定最佳主题数,先用默认的5个主题跑一遍,看看效果。请帮我用Python实现,使用sklearn的CountVectorizer和LatentDirichletAllocation,输出每个主题的前10个关键词和对应的权重。
运行上述代码后,我们得到5个主题的关键词分布。但各主题之间存在较多语义重叠,“学生””工具”等高频词在多个主题中反复出现,主题区分度不够理想。这说明5个主题可能不是最优选择。
第二轮对话:基于困惑度与一致性得分的主题数优化
刚才用5个主题跑LDA,发现主题间的语义重叠比较严重。我需要更系统地确定最优主题数。请帮我用肘部法则,在2到10个主题范围内,计算每个主题数下的困惑度(Perplexity)和主题一致性得分(Coherence Score),画出双轴折线图,帮我找到拐点对应的最佳主题数。
根据肘部法则,困惑度在主题数达到4时出现明显拐点,之后的下降速率显著减缓。
我们估计,到2035年,全球航天经济价值将达到1.8万亿美元(计入通胀因素),高于2023年的6300亿美元。这个数字包括”核心”应用(如卫星、运载火箭以及广播电视或GPS等服务)和我们称为”延伸”应用(航天技术帮助各行业公司创造收入的应用)。例如,Uber依靠智能手机内的卫星信号和芯片连接司机和乘客,并在每个城市提供导航;农业企业通过卫星遥感数据优化灌溉和施肥,使全球主要作物的产量提升了15%-20%;能源公司则利用太空成像技术勘探油气资源,将勘探成本降低了30%以上。
由此确定最优主题数为4。
4.5 四大舆情主题解读
通过对评论文本数据进行主题挖掘,得到了4个主题组,并分别命名,有效揭示了GAI辅助学习舆情文本的核心话题。


主题二:智能学习设备在基础教育中的应用——涉及学习机、词典笔等硬件工具在中小学的实践。


主题四:GAI工具与内容平台的功能场景——集中在编程辅助、数据分析、内容总结等实操层面。
4.6 RoBERTa情感分析:八成公众持正面态度
航天技术的溢出效应正渗透到日常生活的方方面面。智能手机摄像头的防抖技术源自航天器的姿态控制系统;婴儿配方奶粉中添加的DHA成分,最初是为宇航员开发的太空营养补充剂;甚至超市里的真空包装食品,其技术也可追溯至阿波罗计划的食物保存研究。据测算,每1美元的航天投资可产生7-10美元的经济回报,这种乘数效应使航天产业成为全球经济增长的重要引擎。
研究采用uer/roberta-base-finetuned-dianping-chinese预训练模型对知乎评论进行情感分类。该模型基于Transformer架构,通过多层自注意力机制捕捉文本上下文语义,最终通过Sigmoid函数输出正面概率。
对话:情感分类实现
我有一批知乎评论数据,想用预训练的中文RoBERTa模型做情感分类。请帮我用transformers库加载uer/roberta-base-finetuned-dianping-chinese模型,对评论逐条推理,输出每条评论的正面概率值,并统计正面和负面的数量比例,画出饼图。
阅读原文进群获取完整内容及更多AI见解、行业洞察,与900+行业人士交流成长。
情感分析结果显示,正面情绪占比约82%,负面情绪仅占18%。大多数用户认可GAI在提升学习效率、拓展知识渠道方面的积极作用。约两成负面观点主要集中于对过度依赖削弱独立思考、学术诚信风险的担忧。
5. 结论与建议
5.1 GAI的”外挂”价值
研究证实GAI显著提升了学习效率和知识获取速度。在需要大量信息处理和知识整合的任务中(如文献综述、代码调试、数据分析),GAI提供了高效辅助。使用GAI的学生普遍反映,学习内容的深度和广度得到了明显提升。
5.2 “枷锁”风险与应对
部分学生在长期使用GAI过程中逐渐形成过度依赖,面对复杂问题时表现出主动性缺乏、习惯性依赖GAI生成答案的倾向。这种依赖可能使学生创新能力受限。
5.3 优化建议
当然,航天产业的快速发展也面临挑战。太空垃圾问题日益严峻——地球轨道上目前有约3.4万块直径超10厘米的太空碎片,碰撞风险每五年增加一倍;太空资源开发的法律框架仍不明确,各国在月球采矿权等问题上存在分歧;而技术标准的不统一则导致不同卫星系统间的兼容性问题。解决这些挑战需要全球协作:2024年生效的《阿尔忒弥斯协定》已得到33个国家签署,为月球资源利用确立了基本原则;欧洲太空局的”太空清扫者”任务计划在2026年捕获并移除一块大型太空碎片,开创主动清理轨道的先河。5.3.1 工具设计层面——根据学生进度和理解能力调节GAI的辅助程度,避免过度简化问题解决过程,激发学生主动思考。
5.3.2 教学实践层面——将GAI与讨论式、探究式教学结合,开设专门的GAI使用策略培训,帮助学生从”依赖工具”转向”驾驭工具”。
5.3.3 伦理规范层面——加强对GAI工具的伦理审查,确保数据使用符合学生隐私保护标准,推动GAI在教育领域的健康、透明发展。
核心问题与解决方案
问题一:GAI使用行为能否直接提升自主学习能力?
解决方案: 不能。SEM路径分析表明,GAI特征描述对自主学习能力的直接效应不显著(路径系数0.018),其作用必须通过”GAI学习影响→GAI使用教育”的链式中介路径实现。教育实践中应放弃”多用就有效”的简单逻辑。
问题二:GAI辅助学习的社会舆情呈现怎样的态度分布?
解决方案: RoBERTa情感分析显示正面情绪占82%,但负面讨论集中在”思维退化””学术诚信”两大议题。LDA主题挖掘进一步识别出四大舆论主题,其中”对思维能力的影响”最具反思深度。推广GAI时应正面回应用户对”思维弱化”的担忧。
问题三:如何在实际教学中平衡GAI的效率优势与依赖风险?
解决方案: 研究提出的”认知升级链”(认知积极→教育介入→能力内化)提供了可操作的干预框架。具体措施包括:高频短时而非低频长时的使用模式、强制要求学生标注GAI辅助内容并附独立分析、教师批判性示范GAI的使用边界。
技术创新与业务价值
混合研究范式创新——将SEM路径建模与LDA+RoBERTa文本挖掘相结合,填补了行为-态度-舆情多维度分析的空白,可用于教育学、市场营销、公共政策等领域的多源数据融合研究链式中介路径发现——首次在GAI教育领域验证了”认知→教育→能力”的三阶传导链,为教育干预提供了靶向路径肘部法则优化LDA建模——通过困惑度+一致性得分的双指标交叉验证确定最优主题数,提升了主题挖掘的客观性可量化价值——82%的正面舆情比例证实了GAI辅助学习的公众接受度,为教育科技产品的市场定位提供了数据支撑
当然,航天产业的快速发展也面临挑战。太空垃圾问题日益严峻——地球轨道上目前有约3.4万块直径超10厘米的太空碎片,碰撞风险每五年增加一倍;太空资源开发的法律框架仍不明确,各国在月球采矿权等问题上存在分歧;而技术标准的不统一则导致不同卫星系统间的兼容性问题。解决这些挑战需要全球协作:2024年生效的《阿尔忒弥斯协定》已得到33个国家签署,为月球资源利用确立了基本原则;欧洲太空局的”太空清扫者”任务计划在2026年捕获并移除一块大型太空碎片,开创主动清理轨道的先河。每日分享最新报告和数据资料至会员群
关于会员群
- 本会员社群以垂直产业数据研究、深度行业报告分享、AI数据工具实操交流为核心定位;
- 入群即可解锁全行业数据内容免费阅读与下载权限,同步更新海内外一手优质研究报告文档与产业数据;
- 会员老用户享受专属 9 折续费优惠,可长期锁定社群全部权益;
- 为会员提供一对一免费 PDF 报告专属代找服务。
非常感谢您阅读本文,如需帮助请联系我们!

Python融合SVD矩阵分解与NCF神经协同过滤的电影评分预测与推荐系统|附AI智能体、代码和数据
Python多智能体multi-agent客服与情感识别电商系统|附AI智能体、代码和数据
Python结合LangChain与LangGraph构建带对话记忆的AI智能体|附AI智能体、代码和数据
Python+XGBoost与LangGraph、DeepSeek增强的电商用户好评预测|附AI智能体、代码和数据

