㈠ 豆瓣电影数据分析
这篇报告是我转行数据分析后的第一篇报告,当时学完了Python,SQL,BI以为再做几个项目就能找工作了,事实上……分析思维、业务,这两者远比工具重要的多。一个多月后回过头来看,这篇报告虽然写得有模有样,但和数据分析报告还是有挺大差别的,主要原因在于:a.只是针对豆瓣电影数据分析太过宽泛了,具体关键指标到底是哪些呢?;b.没有一个确切有效的分析模型/框架,会有种东一块西一块的拼接感。
即便有着这些缺点,我还是想把它挂上来,主要是因为:1.当做Pandas与爬虫(Selenium+Request)练手,总得留下些证明;2.以豆瓣电影进行分析确实很难找到一条业务逻辑线支撑,总体上还是描述统计为主;3.比起网上能搜到的其他豆瓣电影数据分析,它更为详细,可视化效果也不错;
本篇报告旨在针对豆瓣电影1990-2020的电影数据进行分析,首先通过编写Python网络爬虫爬取了51375条电影数据,采集对象包括:电影名称、年份、导演、演员、类型、出品国家、语言、时长、评分、评论数、不同评价占比、网址。经过去重、清洗,最后得到29033条有效电影数据。根据电影评分、时长、地区、类型进行分析,描述了评分与时长、类型的关系,并统计了各个地区电影数量与评分。之后,针对演员、导演对数据进行聚合,给出产量与评分最高的名单。在分析过程中,还发现电影数量今年逐步增加,但评分下降,主要原因是中国地区今年低质量影视作品的增加。
另外,本篇报告还爬取了电影票房网( http://58921.com/ )1995-2020年度国内上映的影片票房,共采集4071条数据,其中3484条有效。进一步,本文分析了国内院线电影票房年度变化趋势,票房与评分、评价人数、时长、地区的关系,票房与电影类型的关联,并给出了票房最高的导演、演员与电影排名。
清洗、去重后,可以看到29033条数据长度、评分、评论数具有以下特点:
结合图1(a)(b)看,可以看到电影数据时长主要集中在90-120分钟之间,向两极呈现阶梯状递减,将数据按照短(60-90分钟),中(90-120分钟),长(120-150分钟),特长(>150分钟)划分,各部分占比为21.06%, 64.15%, 11.95%, 2.85%。
结合图2(a)看,可以看到我们采集到的电影数据评分主要集中在6.0-8.0之间,向两极呈现阶梯状递减,在此按照评分划分区间:2.0-4.0为口碑极差,4.0-6.0为口碑较差,6.0-7.0为口碑尚可,7.0-8.0为口碑较好,8.0-10.0为口碑极佳。
这5种电影数据的占比分别为:5.78%, 23.09%, 30.56%, 29.22%, 11.34%
再将评分数据细化到每年进行观察,可以发现,30年内电影数量与年度电影均分呈反相关,年度均分整体呈现下降趋势,2016年电影均分最低,电影数量最多。
进一步做出每个年份下不同评级等级的电影数据占比,可以发现,近年来,评分在[2.0,6.0)的电影数据占比有着明显提升,评分在[6.0,7.0)的数据占比不变,评分在[7.0,10.0)的数据占比减少,可能原因有:
对照图5,可以发现,评分与时长、评论人数的分布大致呈现漏斗状,高分电影位于漏斗上部,低分电影位于漏斗下部。这意味着,如果一部电影的评论人数很多(特别是超过30w人观影),时长较长(大于120min),那么它大概率是一部好电影。
根据各个国家的电影数量作图,可以得到图6,列出电影数量前十的国家可得表格2,发现美国在电影数量上占第一,达到8490部,中国其次,达6222部。此外,法国,英国,日本的电影数量也超过1000,其余各国电影数量相对较少。这可以说明美国电影有着较大的流量输入,在中国产生了较大的影响。
进一步分析各国电影的质量,依据评分绘制评分箱线图可得图7,在电影数量排名前20的国家中:
接着我们可以探索,哪个国家的电影对豆瓣评分随年份下降的贡献最大,考虑到电影数量对应着评分的权重。根据上述各国的电影评分表现,我们可以猜测电影数量较多的国家可能对年度均分的下降有较大影响。于是,我们再计算出这些国家的年度电影均分,并与整体均分进行比较分析。
再作出中国大陆,中国台湾,中国香港的均分箱线图图9(a),可以看到,大陆电影均分低于港台电影,且存在大量低分电影拉低了箱体的位置。
分析相关性可得,大陆、香港、台湾电影年度均分与全部评分关联度分别为R=0.979,0.919,0.822,说明滤去台湾和香港电影,大陆电影年度均分的变化趋势与全部评分变化更接近。图9(b)可以进一步反映这一点。
可以看到,大部分类型集中在X×Y=[10000,30000]×[6.00,7.50]的区间范围内,剧情、喜剧、爱情、犯罪、动作类电影数量上较多,说明这些题材的电影是近三十年比较热门的题材,其中剧情类电影占比最多,音乐、传记类电影平均得分更高,但在数量上较少,动作、惊悚类电影评论人数虽多,但评价普遍偏低。
除此之外,还有两块区域值得关注:
根据类型对电影数据进行聚合,整理得到各类型电影评分的时间序列,计算它们与整体均分时间序列的相关性,可得表格4与图11,可以看到剧情,喜剧,悬疑这三种类型片与总分趋势变化相关性最强,同时剧情、喜剧类电影在电影数量上也最多,因此可以认为这两类电影对于下跌趋势影响最大,但其余类别电影的相关性也达到了0.9以上,说明几种热门的电影得分的变化趋势与总体均分趋势一致。
前面已经得知,中美两国电影占比最高,且对于均分时间序列的影响最大。在此,进一步对两国电影进行类型分析,选取几种主要的类型(数量上较多,且相关性较高)进行分析,分别是剧情,喜剧,爱情,惊悚,动作,悬疑类电影,绘制近年来几类电影的数量变化柱状图与评分箱线图可得图12,13,14,15。
对导演与演员进行聚合,得到数据中共有15011名导演,46223名演员。按照作品数量在(0,2], (2,5], (5,10], (10,20], (20,999]进行分组统计导演数量,可以发现,15009名导演中有79.08%只拍过1-2部作品,46220名演员中有75.93%只主演过1-2部作品。忽略那些客串、跑龙套的演员,数据总体符合二八定律,即20%的人占据了行业内的大量资源。
在此,可以通过电影得分、每部电影评论人数以及电影数目寻找优秀的电影导演与演员。这三项指标分别衡量了导演/演员的创作水平,人气以及产能。考虑到电影数据集中可能有少量影视剧/剧场版动画,且影视剧/剧场版动画受众少于电影,但得分普遍要高于电影,这里根据先根据每部电影评论数量、作品数量来筛选导演/演员,再根据电影得分进行排名,并取前30名进行作图,可得图17,18。
结合电影票房网( http://58921.com/ )采集到的3353条票房数据,与豆瓣数据按照电影名称进行匹配,可以得到1995-2020年在中国大陆上映的电影信息,分别分析中国内地电影的数量、票房变化趋势,票房与评分、评价人数、时长、地区以及类型的关系,此外还给出了不同导演与演员的票房表现以及影片票房排名。
如图19所示,国内票房数据与上映的电影数量逐年递增,2020年记录的只是上半年的数据,且由于受疫情影响,票房与数量骤减。这说明在不发生重大事件的情况下,国内电影市场规模正在不断扩大。
对电影数据根据类型进行聚合,绘制散点图21,可以发现:
提取导演/演员姓名,对导演/演员字段进行聚合,计算每个导演/演员的票房总和,上映电影均分、以及执导/参与电影数目进行计算,作出票房总和前30名的导演/演员,可得图22,23,图中导演/演员标号反映了票房排名,具体每位导演/演员的上映影片数量、均分、每部电影评价人数、平均时长与总票房在表5、表6中给出。
最后根据电影票房进行排名,得到票房排名前20的电影如表格7所示,可以看到绝大部分上榜电影都是中国电影,索引序号为3、10、12、14、18、19为美国电影,这也反映了除国产电影之外,好莱坞大片占据较大的市场。
本篇报告采集了1990-2020年间豆瓣电影29033组有效数据,从豆瓣电影的评分、时长、地区、类型、演员、导演以及票房等信息进行分析评价,主要有以下结论:
㈡ 数字电影是什么
数字电影又叫数字电影视觉特技,主要指使用计算机图形技术处理用胶片拍摄出来的影像以制作电影的技术。它不仅能对现实中真正存在的影像进行加工,而且还能创造出现实生活中不存在的影像。数字电影大大丰富了艺术家实现其艺术构思的手段,使摄影机不再是制作电影的惟一手段。它能创造出只在人们想像中存在的事物,甚至创造人们连想都没有想过的事物,真正达到“源于生活、高于生活”的境界。
制作数字电影,首先需要“建模”,就是在计算机上建立所要描述对象几何特征的数学模型。在数字电影中,建模的方法往往使用三维扫描仪,把与真实尺寸成严格比例的实物模型通过扫描输入计算机中。计算机记录下该实物的形体特征后,便可利用这些特征数据对其外观、动作、神态等进行模拟。然后将模拟好的形象与实地拍摄的影像融合在一起。演放出来就会产生栩栩如生的视觉效果。一些特技场面利用数字电影技术拍摄,会产生前所未有的震撼力。
从票房收入也能看出数字电影的魅力。据统计1996年美国电影在本土的票房收入超过1亿美元的有:《独立日》(4.13亿美元)、《谍中谍》(2.68亿美元)、《龙卷风》(2.49亿美元)。而开数字电影先河的《侏罗纪公园》的票房收入更是高达8.68亿美元。这些影片取得如此巨大成功,无不同大量使用数字电影技术有关。
㈢ 电影票房分析及预测
从20世纪初的西洋镜戏法到今天占据全球电影业总产值的三分之一强,资本的加入让好莱坞在过去百年的发展中变得越来越理智--比起商业片流水线缔造者,它更像一个数学家--它精于计算每一项决定对利润的贡献:《蝙蝠侠》续集是否要接受男演员片酬的狮子大开口以获得百分之几的忠实粉丝买票入场;是否要在动作片的第37分钟增加感情戏以争取女性观众;是否要为这部烂透了的原著聘请收费高昂的剧本医生;一个小金人编剧的名头到底值多少钱……这就是在电影开机之前最为重要的环节:票房预测。
华尔街不仅给好莱坞带来了密集的资金支持,也带来了理性的金融工程技术,后者好像一把衡量艺术的尺子。一位浸淫于电影行业的金融人士一语中的:"在这个行业里充斥着暧昧不清、晦暗不明,有真正的艺术家、也有忽悠的吹水者,但到底怎么判断是否能合作,项目是否有投资价值,全凭经验"。
如何预测
早在80年代,美国票房收入预测的先驱BarryLitman对美国80年代近700部电影进行分析推出票房收入预测模型。该系统对之后美国电影投资界产生了颠覆性的影响。电影票房预测系统能分析预测不同种类电影的票房价值,已经成为国际电影产业投融资的重要参考工具,对电影产品定价及衍生产品开发都具有较强的指导作用。
预测系统
电影票房量化分析及预测系统(Box Revenue Prediction)是在考察导演、主要演员、制片、发行及市场营销、电影生命周期、电影类型、发行地区等影响电影票房的诸多因素基础上,基于资产定价模型,综合采用金融工程和回归统计分析方法研发出的预测系统。它能分析预测不同种类电影的票房价值,成为电影产业投融资重要参考工具,对电影产品定价及衍生产品开发都具有较强的指导作用。
中国第一套BRP系统
2012年1月,中影集团联合艾亿新融资本推出了国内第一套基于电影票房预测的估值与定价分析系统--BRP系统。通过对过去4年中600多部影片的统计分析,该BRP系统发现了6条有趣的现象:
·低成本的影片一般会比大片更卖座
·无名小卒主演的影片要比明星主演的影片利润率更高
·类型的艺术特征跟利润之间不存在直接关联,但评论的多寡(无论好评或者劣评)跟利润之间有密切关系
·不含暴力、色情成分的家庭影片最容易赚钱
·大片的续集要比普通新片更容易赚钱
·明星在为影片带来更高票房的同时,也往往拉低了利润率,因为大部分收入进了明星的口袋