Python电影市场特征:AR模型时间序列趋势预测、热图可视化评分影响分析IMDb数据|附数据代码

在数字时代,电影产业的数据分析已成为洞察市场趋势与用户偏好的重要工具。

由Kaizong Ye,Zhiheng Lin撰写

本专题合集聚焦印度电影市场,通过IMDb数据集(IMDb Movies Dataset)的深入分析,揭示其发展脉络与潜在规律。

专题从数据科学家视角出发,结合Python数据分析工具(如Pandas、Seaborn、PyEcharts)与统计模型(如AR自相关分析),系统探讨印度电影的类型分布、评分影响因素及市场趋势。

研究发现,印度电影市场呈现剧情片主导、演员资源集中化等特征,

并创新性地提出基于时间序列模型的市场预测方法。

本专题合集已分享在交流社群,阅读原文进群和500+行业人士共同交流和成长。

分析基本思路展示:


作者


可下载资源


本文分析的数据、代码、报告分享至会员群


一、研究背景与数据来源

1.1 印度电影市场的崛起

近年来,印度电影以《少年派的奇幻漂流》等作品为代表,逐渐打破欧美电影垄断格局。与成熟的欧美、国产电影分析相比,印度电影市场的研究仍存在空白。本研究通过IMDb数据集(包含5,659部电影的10项属性),探索其类型偏好、评分机制及市场演变规律。


1.2 数据选择与预处理
# 核心库导入
import pandas as pd
import seaborn as sns
# 数据载入
data_train = pd.read_csv('movies_data.csv')
print('样本规模:',data_train.shape)
# 异常值处理
data_clean = data_train[(data_train['Duration']<250) & (data_train['Votes']<10000)].copy()

数据包含电影名称、年份、时长、类型、评分、参评人数、导演及演员信息。预处理步骤包括:

  • 填充缺失值(fillna(-1)
  • 删除异常值(时长>250分钟或参评人数>10,000)

想了解更多关于模型定制、辅导的信息?


二、基础属性可视化分析

2.1 电影时长与年份分布

通过核密度图发现,印度电影时长集中于110-150分钟(图1),符合大众观影习惯。年份分布显示,2000年后电影产量显著增长(图2),2015年后占比超30%,反映印度电影产业的现代化进程。


视频

【视频讲解】神经网络、Lasso回归、线性回归、随机森林、ARIMA股票价格时间序列预测

探索见解

去bilibili观看

探索更多视频


plt.subplot(2,2,4) # 为显示清晰,把显示参评人数大于等于2000的部分 votes_data = train_data.drop(train_data[(train_data['Votes'] > 2000)].index) sns.distplot(votes_data['Votes'], color="#31BEFA") plt.title('电影的参评人数分布') plt.xlabel('参评人数')

图1 电影时长分布

 

colors = [plt.cm.Spectral(i/float(len(labels_2))) for i in range(len(labels_2))]
plt.figure(figsize=(12,8), dpi= 80)
squarify.plot(sizes=sizes_2, label=labels_2, color=colors, alpha=.8)
plt.title('电影年份树状图')
plt.axis('off')

图2 年份与产量趋势

2.2 类型偏好与市场热度

类型分析表明,剧情片(Drama)占比最高(3,796部),其次为爱情片(Romance)与动作片(Action)。词云图进一步验证剧情片的主导地位(图3)。参评人数分布显示,超60%电影的参评人数低于100,表明多数影片知名度有限。
图3 类型词云图

三、市场趋势与关键影响因素

3.1 时间序列分析

基于AR(2)模型发现,电影产量与年份呈显著正相关(图4),预测未来仍将保持增长。不同类型的时间演变显示,剧情片始终占据主导,爱情片在2000年前更受欢迎,动作片则在1980-2000年间达到高峰(图5)。


R语言泊松Poisson回归模型分析案例

阅读文章


图4 年份与产量自相关分析


随时关注您喜欢的主题


图5 类型随年份变化趋势

3.2 评分与热度的驱动因素

热图分析显示,评分(Rating)与参评人数(Votes)呈正相关(r=0.32),而年份与评分呈负相关(r=-0.18)。散点图进一步验证,参评人数越多的电影评分越高(图6),表明口碑对热度具有正向反馈。
图6 评分与参评人数关系

四、创新视角:近五年市场动态

4.1 热门类型与创作团队

近五年数据显示,体育片(Sport)与传记片(Biography)热度上升,参评人数均值超1,500(图7)。导演Shashank Khaitan与演员Dilip Mestry成为新兴代表,其作品参评人数显著高于行业平均(图8-9)。

图7 近五年热门类型

图8 近五年热门导演


图9 近五年热门演员

4.2 时长与评分的非线性关系

研究发现,时长在120-150分钟的电影评分最高(均值6.8),过长或过短均可能降低观影体验。这一结论为电影创作提供了量化参考。

五、结论与建议

本研究揭示了印度电影市场的三大特征:

  1. 类型集中化:剧情片主导,但体育、传记等新兴类型潜力显著。
  2. 资源垄断性:头部导演与演员占据超50%市场份额。
  3. 口碑驱动性:高评分电影更易获得热度,形成良性循环。
    建议
  • 导演可尝试结合剧情与体育元素,开拓细分市场。
  • 投资者应关注时长控制(120-150分钟)与演员选择(如Dilip Mestry等新兴明星)。
  • 未来研究可引入自然语言处理(NLP)分析电影评论情感,深化用户画像。
    参考文献
    [1] Persson K. Predicting movie ratings: A comparative study on random forests and support vector machines. 2015.
    [2] 简悦等. 基于Python的豆瓣电影数据爬取与分析. 电脑知识与技术, 2020.
    [3] 程纯. 电影评分影响因素的特征工程分析. 现代电影技术, 2020.

关于分析师

在此对 Zhiheng Lin 对本文所作的贡献表示诚挚感谢,他在数据科学与大数据技术专业完成了学士学位,专注数据科学领域。擅长 Python、R 语言、数据采集、数据分析。


每日分享最新报告和数据资料至会员群

关于会员群

  • 会员群主要以数据研究、报告分享、数据工具讨论为主;
  • 加入后免费阅读、下载相关数据内容,并同步海内外优质数据文档;
  • 老用户可九折续费。
  • 提供报告PDF代找服务

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds