本文通过利用回归模型帮助客户对电影的票房数据（以及放映场数，观影人数）进行了研究，确定了决定电影的票房的重要因素。

由Kaizong Ye，Weilong Zhang撰写

并讲述、论证了预测电影的票房是电影投资的至关重要的环节。

视频

R语言逐步回归模型对电影票房、放映场数、观影人数预测可视化

通过对电影票房预测技术的发展和探讨，深度剖析了电影票房预测这个研究课题。

数据描述

为了深入探究中国电影市场的繁荣与发展，我们专门收集了中国电影发行放映协会发布的关于过千万票房的国产电影的详细统计指标。这次的数据收集工作覆盖了共计275部影片，这些影片不仅代表了国产电影市场的活力，也反映了观众对于不同类型、不同题材电影的热情与喜好。

在这次的数据收集中，我们注重了多个维度的统计指标，包括但不限于影片的票房数据、观影人次、上映时间、影片类型、导演与主演名单、制作成本以及影片口碑等。通过对这些数据的分析，我们可以全面而深入地了解国产电影在市场中的表现，以及观众对于不同类型影片的接受程度和喜好趋势。

可下载资源

完整程序、数据和文档（word）

本文分析的数据分享至会员群

加入会员群

作者

Weilong Zhang
✉ 联系我们

数据浏览：

× 逐步回归的基本思想是将变量逐个引入模型，每引入一个预测变量（解释变量）后都要进行F检验（投必得论文编译：第十九讲 R语言–F检验：两样本方差比较），并对已经选入的预测变量逐个进行t检验（投必得论文编译：第十讲 R-两独立样本t检验），当原来引入的预测变量由于后面预测变量的引入变得不再显著时，则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的预测变量选入回归方程，也没有不显著的预测变量从回归方程中剔除为止。以保证最后所得到的预测变量集是最优的。依据上述思想，可利用逐步回归筛选并剔除引起多重共线性的变量（投必得论文编译：第三十七讲 R语言-多元线性回归中的多重共线性和方差膨胀因子），其具体步骤如下：先用结果变量对每一个所考虑的预测变量做简单回归，然后以对结果变量贡献最大的预测变量所对应的回归方程为基础，再逐步引入其余预测变量。经过逐步回归，使得最后保留在模型中的解释变量既是重要的，又没有严重多重共线性。

因变量为：

放映场数（千场）：累积量。

观影人数（万人）：累积量。

票房（万元）：累积量。票房均值在一亿人民币左右，其中《人在囧途之泰囧》票房达到了12.7亿，位列第一。

自变量为：

•影片部分

genre 影片类别：分类变量，共有15个类型。为了获得大量的观众群体，大多数影片都兼具许多种影片类型，因此我们仅选取了该片最主要的类型。15个类型分别是：喜剧，魔幻，动作，爱情，灾难，历史剧情，励志，主旋律，警匪，悬疑，动画，儿童，惊悚，家庭伦理。

视频

R语言用线性回归预测共享单车的需求和可视化

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

Year 上映年份：2010-2013四年

month 上映月份：1-12

week 上映周数：1-53，从当年1月1号起记为第一周

distribute 电影分级：C/G/L/S

runtime 时长：分钟。过长或过短的电影都会对票房产生影响，找到合理的时长，从而能够有效的控制电影的剪辑。

Story 作品是否改编：该指标是电影产品的核心元素，在内容为王的当下，好的剧本往往能够吸引受众，对于国产影片，观众更看重的是好的故事，他们往往对国产影片的技术并不抱太大希望。因此，该指标主要包括两个水平，一是畅销小说改编成剧本1，另一个则是非改编剧本也就是原创剧本0。（N=改编，S=原创

reality 作品是否真人真事：1=真实，0=虚构

remake 作品是否翻拍：1=翻拍，0=非翻拍

sequel 作品是否续集：好莱坞的一大宗旨是誓将续集进行到底，真可谓天长地久有时尽，大片续集无绝期！因为第一，好拍；第二，票房好。那么，在中国市场，这招是否仍然管用？

•导演演员部分

导演姓名

导演年代

第几部作品：该片是该导演的第几部作品。冠军《人在囧途之泰囧》是导演徐峥的处女作，拿到了12亿的票房，而喜剧《财神客栈》已经是导演王晶的第110部影片。老导演or新导演，哪一种更吸引人？是久炼成钢，姜越老越辣？还是廉颇老矣，洗洗回家睡吧？

导演得奖情况：1=得奖，0=没得奖

导演是否转型：导演是一门确实能够自学成才的工种，就像久病成医，演的多了，拍的多了，自然也能成为优秀的导演。在中国电影市场中，演员转型当导演的赵薇、徐峥；作家转型的郭敬明、韩寒，我们希望看到已经在自己的领域取得成就的这些名人，随着工种的转变是否会对票房有影响。

Baidu index 主演的百度指数：影片的主演在分析中是一个字符变量，为了更好的使用这一指标，同时优化工作效率，我们决定在相同的时间段，选择所有演员百度指数的平均值作为衡量主演的标准。因为大多数电影不会仅有一个主演，所以我们选取了两个主演。百度指数越高，代表该演员知名度越高。

查看数据

该数据集有以下一些变量：

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI，NRI指标

从上表可以看到不同变量的缺失数据均值中值最大最小值等情况和分布情况。

R语言泊松Poisson回归模型分析案例

阅读文章 ➜

从直方图来看，数据大致服从正态分布，说明数据可以进行回归模型的建立。

随时关注您喜欢的主题

模型建立

主要思路为了准确的估计票房,了解电影票房的一般规律,更好为电影投资方提供参考意见,本文从电影票房和电影相关属性出发,采用多元回归分析方法,建立了线性回归模型,得出了电影票房变动的影响因素. 具体分析步骤

1.描述性统计，初步查看每个变量的均数中值等数据.

2.选择多项式回归模型

2.1变量选取通过回归模型筛选出显著性较强的变量进行回归建模。

2.2显著性检验根据F值和p值统计量来判断模型是否具有显著的统计意义。

2.3拟合预测使用得到的模型对实际数据进行拟合和预测。

3.拟合不同的模型。查看模型效果。

4.分析得出结论得出各个自变量之间的关系，以及它们对因变量的影响及其意义。

（一）转换数据，拟合多元线性模型

建立多元线性——票房

尝试通过最直观的解释建立模型，进行多元线性模型并进行分析。

从全变量模型可以看出大部分变量无法估计出其参数，说明部分变量不适合用来预测票房，因此对其中的部分变量进行删减后。得到筛选后的回归模型。

显示回归结果

回归结果分析

从输出结果的变量sig值可以看出，导演的情况和是否有续集以及电影的时长对电影的票房有巨大的影响。从变量的coefficient回归系数来看，导演的情况和是否有续集有正相关关系。可以看到电影的票房和上映国家也有显著的关系，在美国上映的电影票房较高，可以看到他们的回归系p数在显著性水平0.05下均显著不为零。

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验，同时还可以找出离群点。显示结果如下:

由于模型中部分系数是不显著，因此需要对模型进行改进，本文采用迭代回归模型建模。

使用逐步回归之后对模型进行残差检验。下图是残差直方图，从图上可以发现，所有点基本上是随机地分散在0周围，密度曲线近似为正态分布。右边是正态pp图，其意义与左边类似；表明随机误差项是服从正态分布的，其原因是正态qq图近似地可以看成一条直线；.

拟合效果图形展示

以原始数据作为x轴，回归拟合值为轴作图，在xy面上的点用直线连接见图。
原始图和拟合值的关系散点图

由于大部分黑色的实际数据点被红色的预测点覆盖，因此，模型具有较好的预测效果。

进行多元线性模型并进行分析——放映场数

回归结果分析

从输出结果的变量sig值可以看出，和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。从变量的coefficient回归系数来看，导演的情况和是否有续集有正相关关系。可以看到电影的票房和上映国家也有显著的关系，在美国上映的电影票房较高，可以看到他们的回归系p数在显著性水平0.05下均显著不为零。