数据报告分享|SPSS基于多元回归模型的电影票房预测

本文通过利用回归模型对电影的票房(以及放映场数,观影人数)进行了研究,确定了决定电影的票房的重要因素。

并讲述、论证了预测电影的票房是电影投资的至关重要的环节。

由Kaizong Ye,Liao Bao撰写

通过对电影票房预测技术的发展和探讨,深度剖析了电影票房预测这个研究课题。

× 国内外的学者较为关注电影票房的预测。Gilad Mishne和Natalie Glance分析博客中的有关数据发现口碑对于电影票房有着显著地影响力;M Wasserman, S Mukerjee, K Scott借助Internet Movie Database网站数据发现用户投票数、电影拍摄、发行成本及票房之间存在某段时间的双对数正态分布[2];Sitaram Asur将社交网络融入预测模型,分析在电影上映期间观众在不同阶段的情感倾向,用回归模型预测电影的票房[3];Randy A.Nelson等人研究了明星效应与电影票房之间的关系[4]。中国的学者不仅探寻电影票房的影响因素,还创造性的运用现代统计技术分析票房。刘明昌运用Gradient Boosting算法和随机森林回归算法研究电影票房的影响因素[5];张新宇通过中介效应检验解释“高票房、低口碑”电影现象的成因[6];汤子涵运用循环神经网络,以首映周票房、电影时长、制作技术IMAX及电影评分作为输入变量对电影票房进行了预测[7];王霖等运用决策树和多元回归对电影首映周票房进行了预测[8],平均准确率达到了86.53%;张慧和王世伟运用卷积神经网络,结合Matlab软件对电影票房进行预测[9]。除此以外,方宗琳揭示了电影产地、评论人数、网络评分与电影票房之间存在显著相关关系[10];程粮君从创意、发行、营销三个主要方面选取变量研究电影票房的影响因素[11];丁汉青、郑馨怡等对美国动画电影进行票房预测[12]。 参考文献 (References): [1]姜涛,李东,乔彦宏,等. 城市电影市场规范经营体系建设研究[J].当代电影,2015. [2]M Wasserman, S Mukher Jee, K Scott. Correlations between user voting data, budget, and box office for films in the internet movie database[J]. Journal of the Association for Information Science and Technology, 2015,66(4):858-868. [3]S Asur, B/Huberman. Predicting the future with social media[J]. Proc of Wiiat, 2010,7(2):492-499. [4]Randy A. Nelson, Robert Glotfelty. Movie stars and box office revenues:an empirical analysis. [J].Cult Econ,2012,36:141-166. [5]刘明昌. 豆瓣网站电影在线评分的混合预测模型研究[D].河北大学,2017. [6]张新宇. 国产电影票房与口碑影响因素研究[D].山东大学,2018. [7]汤子涵. 基于多元回归和神经网络的我国电影票房的研究[D].湖南师范大学,2018. [8]王霖. 基于决策树和线性回归的电影首映票房预测[A]. 中国统计教育学会.2017年(第五届)全国大学生统计建模大赛获奖论文选[C].中国统计教育学会:中国统计教育学会,2017:27. [9]张慧,王世伟.基于深度学习对电影票房的预测[J].湖北第二师范学院学报,2017,34(08):60-64. [10]方宗琳.电影票房影响因素的研究[J].市场周刊,2018(10):81-85. [11]程粮君.电影票房影响因素分析——以2016—2017年票房过亿元的国产电影为例[J].声屏世界,2018(04):37-41. [12]丁汉青,郑馨怡,周志成.美国动画电影票房的影响因素分析及预测模型建构——与真人电影的比较研究[J].新闻大学,2016(01):76-149.

一、 电影票房预测发展简介

(一) 西方电影票房的研究

美国电影的票房研究起始于上个世纪80年代,由李特曼(B. R. Litman)在1989年以1981到1986年在美国播出的697部电影作为研究样本,通过多元回归分析,初步建立了电影票房的预测模型。

我们收集了中国电影发行放映协会统计的过千万票房的国产电影的相关统计指标,共涉及275部影片.

image.png

因变量为:

放映场数(千场):累积量。

观影人数(万人):累积量。

票房(万元):累积量。票房均值在一亿人民币左右,其中《人在囧途之泰囧》票房达到了12.7亿,位列第一。

自变量为:

•影片部分

genre  影片类别:分类变量,共有15个类型。为了获得大量的观众群体,大多数影片都兼具许多种影片类型,因此我们仅选取了该片最主要的类型。15个类型分别是:喜剧,魔幻,动作,爱情,灾难,历史剧情,励志,主旋律,警匪,悬疑,动画,儿童,惊悚,家庭伦理。

影片类别,作为一个重要的分类变量,对于观众来说具有不可忽视的影响。在这部作品中,我们面临着多达15种不同的类型选择,每一种类型都代表着一种独特的艺术风格和观影体验。为了更精准地定位影片的受众群体,并最大化地吸引观众,我们在对影片进行分类时,特别注重其主导的类型元素。

在这15个类型中,喜剧类影片以其幽默诙谐的故事情节和生动的角色刻画深受观众喜爱;魔幻类影片则通过奇幻的设定和神秘的元素,带领观众进入一个充满想象力的世界;动作类影片以其紧张刺激的场面和精彩的打斗场面,让观众感受到强烈的视觉冲击;爱情类影片则通过细腻的情感描绘和动人的爱情故事,触动观众的内心。


视频

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

探索见解

去bilibili观看

探索更多视频

Year 上映年份:2010-2013四年

month 上映月份:1-12

week 上映周数:1-53,从当年1月1号起记为第一周

distribute 电影分级:C/G/L/S

runtime 时常:分钟。过长或过短的电影都会对票房产生影响,找到合理的时长,从而能够有效的控制电影的剪辑。

Story 作品是否改编 :该指标是电影产品的核心元素,在内容为王的当下,好的剧本往往能够吸引受众,对于国产影片,观众更看重的是好的故事,他们往往对国产影片的技术并不抱太大希望。因此,该指标主要包括两个水平,一是畅销小说改编成剧本1,另一个则是非改编剧本也就是原创剧本0。(N=改编,S=原创

reality 作品是否真人真事:1=真实,0=虚构

remake  作品是否翻拍:1=翻拍,0=非翻拍

sequel  作品是否续集:好莱坞的一大宗旨是誓将续集进行到底,真可谓天长地久有时尽,大片续集无绝期!因为第一,好拍;第二,票房好。那么,在中国市场,这招是否仍然管用?

•导演演员部分

导演姓名

导演年代

第几部作品:该片是该导演的第几部作品。冠军《人在囧途之泰囧》是导演徐峥的处女作,拿到了12亿的票房,而喜剧《财神客栈》已经是导演王晶的第110部影片。老导演or新导演,哪一种更吸引人?是久炼成钢,姜越老越辣?还是廉颇老矣,洗洗回家睡吧?

导演得奖情况:1=得奖,0=没得奖

导演是否转型:导演是一门确实能够自学成才的工种,就像久病成医,演的多了,拍的多了,自然也能成为优秀的导演。在中国电影市场中,演员转型当导演的赵薇、徐峥;作家转型的郭敬明、韩寒,我们希望看到已经在自己的领域取得成就的这些名人,随着工种的转变是否会对票房有影响。


数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化

阅读文章


Baidu index 主演的百度指数:影片的主演在分析中是一个字符变量,为了更好的使用这一指标,同时优化工作效率,我们决定在相同的时间段,选择所有演员百度指数的平均值作为衡量主演的标准。因为大多数电影不会仅有一个主演,所以我们选取了两个主演。百度指数越高,代表该演员知名度越高。

查看数据  该数据集有以下一些变量:

image.png


随时关注您喜欢的主题


image.png

从上表可以看到不同变量的缺失数据均值中值最大最小值等情况和分布情况。

image.png
image.png

 模型建立

主要思路 为了准确的估计票房,了解电影票房的一般规律,更好为电影投资方提供参考意见,本文从电影票房和电影相关属性出发,采用多元回归分析方法,建立了线性回归模型,得出了电影票房变动的影响因素.

具体分析步骤

1.描述性统计,初步查看每个变量的均数中值等数据.

2.选择多项式回归模型

2.1变量选取 通过回归模型筛选出显著性较强的变量进行回归建模。

2.2显著性检验 根据F值和p值统计量来判断模型是否具有显著的统计意义。

2.3拟合预测 使用得到的模型对实际数据进行拟合和预测。

3.拟合不同的模型。查看模型效果。

4.分析得出结论 得出各个自变量之间的关系,以及它们对因变量的影响及其意义。   

转换数据,拟合多元线性模型

将所有数据转化成数值类型

image.png

 建立多元线性:票房

尝试通过最直观的解释建立模型

image.png

 进行多元线性模型并进行分析

从全变量模型可以看出大部分变量无法估计出其参数,说明部分变量不适合用来预测票房,因此对其中的部分变量进行删减后。得到筛选后的回归模型。

  •  筛选变量
  •  显示回归结果
image.png
image.png

回归结果分析

从输出结果的变量sig值可以看出,导演的情况和是否有续集以及电影的时长对电影的票房有巨大的影响。 从变量的coefficient回归系数来看,导演的情况和是否有续集有正向关关系。

回归结果

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。 显示结果如下:

image.png
image.png

左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。

  进行多元线性模型并进行分析——放映场数

image.png
image.png

回归结果分析

从输出结果的变量sig值可以看出,和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。

回归结果

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。 显示结果如下:

image.png
image.png

左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。

进行多元线性模型并进行分析——观影人数

image.png
image.png

回归结果分析

从输出结果的变量sig值可以看出,和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。

回归结果

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。 显示结果如下:

1111.png
image.png

左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。

最后我们得到了文件结果:

image.png

image.png 代码:

GET DATA   /TYPE=TXT   /FILE='E:\电影票房数据.csv'   /DELCASE=LINE   /DELIMITERS=" ,"   /ARRANGEMENT=DELIMITED   /FIRSTCASE=2   /IMPORTCASE=ALL   /VARIABLES=   片名 A30   放映场数 A8   人数 A10   boxoffice F9.2   genre A8   year A7   month A4   week F4.0   distribute A2   runtime A3   story A3   reality A2   remake A1   sequel F1.0   导演 A22   导演年代 A6   第几部作品 A6   导演得奖情况


每日分享最新报告和数据资料至会员群

关于会员群

  • 会员群主要以数据研究、报告分享、数据工具讨论为主;
  • 加入后免费阅读、下载相关数据内容,并同步海内外优质数据文档;
  • 老用户可九折续费。
  • 提供报告PDF代找服务

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds