首页 理论教育电影票房的预测分析

电影票房的预测分析

【摘要】:目前已有大量电影票房预测研究的相关案例,但大部分都是在传统的统计方法和传统神经网络层面上分析。欲预测电影票房,首先需要从相关网站上获取票房数据以及影响电影票房的相关变量,并对原始数据进行清洗等预处理操作,然后将处理后的数据作为CNN的输入。本案例的目标是基于中国电影市场特性,依据历史电影票房数据,创新性地提出将深度学习模型中的CNN应用在电影票房预测中。

目前已有大量电影票房预测研究的相关案例,但大部分都是在传统的统计方法和传统神经网络层面上分析。多元线性回归模型在预测精度上不如神经网络,但是回归可以清楚地解释影响因素对票房的影响程度;神经网络模型在电影票房的预测上的精确度要高于回归模型,但是各变量对电影票房的影响程度不好解释。因此,神经网络模型被称为“黑盒子”。本案例的目标是基于中国电影市场特性,依据历史电影票房数据,创新性地提出将深度学习模型中的CNN应用在电影票房预测中。

本案例主要是针对中国国产电影的,根据巴瑞·李特曼的研究,并结合中国大陆电影市场的特点,选择了想看人数、是否为续集或改编、电影类型、电影制式、上映档期、导演、主演及发行公司这些影响因素作为自变量

案例的数据来源于豆瓣电影、艺恩咨询、时光网以及百度百科等网站,数据是2012—2017年6年中电影院票房超过5000万的电影,最终样本数据共有254条。在数据的获取上,利用了Java爬虫技术抓取所需数据。

由于深度神经网络天然的拟合复杂函数的优势,再考虑到CNN的卷积层和池化层的优秀特征提取机制,采用卷积神经网络CNN作为电影票房预测模型,其结构如图7-10所示。

图7-10 电影票房预测神经网络结构图

因为发行公司的取值有11个类别,为了利用one-hot标记输入样本,将每一个输入变量进行扩展包含11个元素的一维特征向量,在物理结构上类似于图像数据,形式为8×11,然后按照CNN处理图像数据的方式,将所有变量依次连接构成一维向量,作为CNN的输入数据。CNN中,设置了一个输入层,两个卷积层,两个池化层,两个全连接层和一个输出层。

欲预测电影票房,首先需要从相关网站上获取票房数据以及影响电影票房的相关变量,并对原始数据进行清洗等预处理操作,然后将处理后的数据作为CNN的输入。当网络中的数据经过输入层后,会传递到第一层卷积层,在发生卷积操作的时候,需要指定卷积窗口的大小、卷积核的大小以及滑动步长,通过卷积过滤器与局部感知区域中的数据加权求和再交给激活函数,经过激活函数的处理后再输出到下一层,也就是池化层,在池化层主要是发生了采样处理,采样的处理主要包括取固定窗口内的最大或者均值,能起到降维的作用,减少模型的复杂度。接着再将池化层的数据输出到下一层的卷积层,以及池化层,过程同上所述。然后,当卷积层和池化层结束后将结果输出到全连接层,全连接层将前面得到的特征融合,最后由全连接层和输出层进行全连接,经过加权与激活函数作用后输出到输出层,从而得到预测结果。

本案例的目标是基于中国电影市场特性,依据历史电影票房数据,创新性地提出将深度学习模型中的CNN应用在电影票房预测中。实验结果表明,多元回归模型预测效果精确度较低,BP神经网络和CNN预测的效果都没有CNN效果好,预测精度和性能都是传统预测的模型典范。