导航:首页 > 电影影评 > 怎么对电影数据进行分析

怎么对电影数据进行分析

发布时间:2022-08-22 02:21:00

⑴ 分析电影数据的用哪个分析方法好

有啊 ,比如最简单的一个比方,《青春期》。这电影烂的不能在烂,但是用了一些观众数据很轻松对了 不知道多少钱,反正是赚了不少 几千万那样子吧

⑵ 数据分析需要掌握些什么知识

我们先从整体上了解数据分析师要掌握的技能有哪些,然后再从具体职位类别来看,不同的职位具体要掌握的技能有哪些。

这样你就能根据自己的实际情况,有针对性的准备和学习。

一、数据分析的胜任力模型是什么?

从整体上来看,数据分析师需要掌握的能力有很多,从总体上可以分为以下几类,这些能力构成了数据分析师的能力模型。


1)理论基础,包括统计学

2)数据分析工具,常用的分析工具有 Excel,SQL,Python 等

3)可视化工具,常用的有 Excel,商业智能(Business Intelligence,BI)

4)业务知识,包括常用的指标、某行业的业务流程

5)数据分析思维,包括常用的分析方法

6)通用能力,包括 PPT、沟通能力

下面我们来详细看下每一种能力的要求。

  1. 理论基础:统计学

  2. 数据分析背后的理论基础是统计学。所以,掌握了统计学以后我们才能去看懂数据表达的意义是什么。举个例子,给你一家公司员工的工资,是平均值能代表这家公司的工资水平,还是中位数能代表?

  3. 如果没学过统计学,那么可能只认识这里的平均值,而不知道中位数这个知识。但是,如果你学过了统计学就会知道,中位数比平均值更能反映出数据的集中表现。

  4. 统计学的内容比较多,详细又可以分为两类内容:描述统计分析、推论统计分析。

  5. 什么是描述统计分析?

  6. 对大量信息进行归纳是处理数据时最基本的任务。中国约有 14 亿人,一张记录每位中国人的姓名和收入的电子表格包含了我们衡量这个国家经济健康状况所需的所有信息,通常我们也将多个数据集合在一起的东东叫「简称数据集」。但这张信息过量的表格其实相当于什么都没有告诉我们。这就是让人觉得讽刺的地方:经常是数据越多,事实越模糊。

  7. 因此,我们需要简化,将一系列复杂的数据减少为几个能够起到描述作用的数字,正如奥运会体操比赛中,我们将一套多难度组合的复杂动作浓缩为一个得分:9.8 分。

  8. 描述统计分析就是将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些有代表性的数字来代表所有的数据。这样在面对一大堆数据时,你可在不知道所有数据的情况下就能知道数据的整体情况。

  9. 这就好比,我们通常一说起美女,能想到的是这样几个指标:长腿,大眼睛,脸蛋好看。虽然全国有那么多美女,你也没有见过全部的美女,但是你却能通过这样几个代表美女的指标就可以大概知道什么是美女。

同样的,描述统计学的关键点在于,找到几个关键的数字来描述数据的整体情况。那么,问题就来了,能担当起这样重要责任的数字有哪些呢?描述数据的整体情况,我们可以用 4 个指标来做,分别是:平均值、四分位数、标准差和标准分。例如,前面我们在拿到工资数据,就可以用「中位数」这样的数字来描述工资的整体情况。

所以,描述统计分析就是掌握 4 个指标:平均值,四分位数,标准差和标准分。

什么是推论统计分析?

推论统计分析就是通过样本来推断出总体。需要掌握的知识包括概率分布、中心极限定、如何用样本估计总体、置信区间、假设检验。例如,互联网常用的 AB 测试背后的原理就是假设检验,如果不掌握推论统计分析,那么连 AB 测试的结果也看不懂,更不用说完成一个 AB 测试实验。

2.数据分析工具

很多人看到现在 Python 很火,就不管自己的能力水平如何,就一头扎进学习 Python 的大潮,最后发现其实自己学不会,或者学完用不上。

这其实是不对的,真正工作里最常用的数据分析工具其实是 Excel,SQL。所以,如果你的零基础,不建议一上来就学 Python,而是先学会 Excel 分析数据,然后学会 SQL。

这样你学会了常用的分析工具,然后再学 Python 才是加分项。同时,这样学习的顺序还有一个好处,如果你是零基础没学过编程,一上来学 Python,大概率是学不会的。但是如果你学过用 Excel、SQL 处理数据,那么就具备了一定的基础,再学 Python,很多概念就会理解起来比较容易。

这就好比,一个婴儿不是一上来就学习跑步(Python),而是先把走路学会,具备了走路(Excel、SQL)的基础,再跑步就容易多了。


需要注意的是,除非是工作必须要求的,其他少部分公司用的工具其实不需要学习。比如有些公司要求其他编程语言,例如 R、SPSS、SAS 这些工具。

现在 Pyhon 已经是人工智能排名第一的编程语言了,大部分公司要求 Python,很少部分的公司要求其他的编程语言,所以学习市场要求最多的那个技能才能找到更多机会。如果你学习了少部分公司才要求的工具,那么意味着你找工作或者跳槽只能选择这些公司,而会错失其他大部分公司的求职机会,对你整个职业生涯不利。

TIOBE 编程语言排行榜是全球编程语言流行趋势的一个指标,每月更新,官网地址(https://www.tiobe.com/tiobe-index)。下图是 2021 年 2 月份排名前 10 的编程语言的变化图,其中橙色曲线是 Python,我们会发现 Python 的流行趋势越来越高。

3.可视化工具

常用的可视化工具包括 Excel、商业智能(BI)。

一般的可视化图表用 Excel 里的图表功能就可以实现,而且使用起来也方便。如果是要经常做报表,并且要求实现报表自动化,那么就需要用到商业智能(BI)工具。

那什么是商业智能(BI)呢?

微软官方给的定义是「使用用于自助服务和企业商业智能 (BI) 的统一、可扩展平台(该平台易于使用,可帮助获取更深入的数据见解),连接到任何数据并对数据进行可视化。 」

毫无悬念,看这种官方定义就是看不懂。简单来说就是把数据导入商业智能(BI)工具中,就可以快速对数据可视化。例如下图就是把数据导入用商业智能(BI)工具中,通过可视化数据来分析。


IDC《2019 年下半年中国商业智能软件市场数据跟踪报告》显示,在中国商业智能软件子市场中,报表分析仍是目前市场最主要的需求,2019 年全年年市场份额占比为 79.0%。高级分析和预测分析市场份额占比 21.0%(下图)。


常用的商业智能(BI)工具有哪些呢?

目前使用最多的商业智能(BI)工具是 Power BI、Tableau、帆软,选择其中任意一种学习就可以了。

4.业务知识

因为数据分析是用来解决具体行业问题的,需要从业务的角度出发,了解各个指标,以及每个指标之间的关系,还需要联系业务去理解数据。所以,工作中数据分析脱离不了业务,在分析中要找到导致问题发生的根本原因,而不只是单纯的统计数据。

因此需要具备某个行业的业务知识才能去理解这个行业里的术语、业务问题等。

业务知识包括某个行业的常用指标、业务流程。需要注意的是,不同行业的指标、业务流程是不一样的,所以需要学习的时候针对你的目标行业去学习准备。例如,下图分别是金融信贷行业、在线教育行业的业务流程。

金融信贷行业业务流程(来自书《数据分析思维》)

在线教育业务流程(来自书《数据分析思维》)

如果是刚入门,这块内容做到了解即可,等进入工作以后,再慢慢深入业务,积累业务经验。具体某个行业的常用指标、业务流程可以看书《数据分析思维》,这本书里涉及了 10 多个行业的指标、业务流程。

5.数据分析思维

在数据分析相关的职位里经常会写这么一条招聘要求「具备数据分析思维」。在工作或者面试中,会经常听到分析思维、分析思路、分析方法。这三个词语有什么关系呢?其实简单来说,它们都是指分析方法。

数据分析思维需要你掌握 10 种常用的分析方法。

数据分析 10 种常用的分析方法

如果你的分析目的是想将复杂问题变得简单,就可以使用逻辑树分析方法,例如经典的费米问题就可以用这个分析方法。

如果你的分析目的是做行业分析,那么就可以用 PEST 分析方法,例如你想要研究中国少儿编程行业。

如果你想从多个角度去思考问题,那么就可以用多维度拆解分析方法,例如找相亲对象,需要从多个角度去分析是否合适。

如果你想进行对比分析,就要用到对比分析方法,例如你朋友问自己胖吗,就是在对比。

如果你想找到问题发生的原因,那么就要用到假设检验分析方法,其实破案剧里警察就是用这个方法来破案的。

如果你想知道 A 和 B 有什么关系,就要用到相关分析方法,例如豆瓣在我们喜欢的电影下面推荐和这部分电影相关的电影。

如果你想对用户留存和流失分析,就要用到群组分析方法,例如微博用户留存分析。

如果你想对用户按价值分类,那么就要用到 RFM 分析方法,例如信用卡的会员服务,就是对用户按价值分类,对不同用户使用不同的营销策略,从而做到精细化运营。

如果你想分析用户的行为或者做产品运营,就要用到 AARRR 模型分析方法,例如对拼多多的用户进行分析。

如果你想分析用户的转化,就要用到漏斗分析方法,例如店铺本周销量下降,想知道是中间哪个业务环节出了问题。

6.通用能力

通用能力包括 PPT 制作分析报告、沟通能力。

在工作中,要经常做分析结果做成数据分析报告,然后展示给业务部门、上级领导、客户等,而这种展示数据分析报告的场景常用的工具就是 PPT,所以就要求你会用 PPT 制作数据分析报告,有较好的的文字、书面总结能力。

职业社交网站领英发布的《2018 新兴工作岗位报告》报告里说,最大的技能缺口是软技能,比如口头交流、领导力和时间管理等。这份报告中建议,职场人士需要在快速变化的工作环境中,学习并保持软技能,因为拥有这些技能的人才具备更大的职场优势。

其实,任何职位都需要沟通能力,但是,数据分析师对沟通能力的要求更高。因为,数据分析师解决的是实际的问题,需要跨部门沟通业务,做好的数据分析报告也要展示给各个部门、领导、客户,只有好的沟通能力,才能让你的分析结果得到用户的认可。 那么这些通用能力如何提升呢?最直接的方式,就是通过写文章来提升。

通过写作可以同时提升你下面 3 个能力:

1)逻辑能力

写作的本质其实是把一件事情讲清楚,而逻辑能力强的人写出来的内容,读起来更顺畅。

2)文字表达能力

数据分析师要经常做数据分析报告,和通过邮件汇报分析结果。这体现的其实就是文字表达能力,提高这个能力的办法就是不断去写作。

3)沟通能力

写作其实就是把想说的话通过文字和你的用户去沟通。另外,经常在社群里提问和解答他人的问题,也可以提高你的沟通能力。你会看到不同人提问的水平是不一样的,有的人可以完整的把一个问题描述清楚,有的人说完,其他人也不明白他的问题是什么。这其实就是体现了沟通能力。

二、不同职位的数据分析能力要求有什么不一样?

经过前面的分析,我们从整体上知道了数据分析师需要掌握的能力。但并不是说,这些能力全都掌握了你才能找到一份数据分析师的工作。因为不同的职位的要求不一样的。在《职业发展前景:数据分析师的晋升通道》章节我们知道了数据分析相关职位的分类。


我把胜任力模型中的这些能力对应到不同的职位,就可以清楚的看到对应职位的能力要求(下图)。


有一个误区,很多人以为只要掌握了分析工具,就掌握了数据分析,其实不是的。从图中,我们可以看出。各个数据分析职位都需要的能力是:业务知识、分析思维、PPT、沟通能力。这些能力才可以让你从一个只会舞弄工具的普通职场人变成真正解决业务问题的职场高手。

很多人以为数据分析师需要掌握很高大的工具,其实不是的。例如腾讯里有一个岗位叫「商业数据分析师」,这听起来很高大上。其实这个职位对应的就是上图初级数据分析师的能力要求,也就是理论基础(描述统计分析),分析工具(Excel),可视化工具(Excel)。

上图中黄色标出的是相对于前一职位多出来的能力。中级数据分析师在初级数据分析师要求的能力上增加了分析工具(SQL),可视化工具(商业智能 BI)。高级数据分析师在中级数据分析师要求的能力上增加了理论基础(推论统计分析),分析工具(Python)。

Excel、SQL、Python 要掌握到什么程度?

我们知道了数据分析师最常用的分析工具是 Excel、SQL、Python。那么问题就来了,这些分析工具具体掌握哪些内容呢?

⑶ 如何分析影片

一部影片的构成,不同角度会有不同的分析结果,但无外乎主题、结构,人物,和场景、摄影,音乐等。而其中分析主题是最为核心,也是最为关键的,其他的角度都是为了更好的服务这个角度,是形式与内容的关系,所以我们重点来说说电影主题的分析。

确立主题

在经过上述几个方面的分析后,我们基本能确立电影的主题,也就是讲述了一个什么样的故事,然后,这还只是一个粗略的判断,只是为更细致的分析找到了起点。如果我们对影片主题的分析,不能支持最初的看法,主要是通过摄影,音乐,台词,节奏等分析,无法得出一致的结论,则应该根据分析所暗示的新方向重新考虑。


答主:王忠玮,邀你关注微信公众号【营销航班】

⑷ 电影票房分析及预测

从20世纪初的西洋镜戏法到今天占据全球电影业总产值的三分之一强,资本的加入让好莱坞在过去百年的发展中变得越来越理智--比起商业片流水线缔造者,它更像一个数学家--它精于计算每一项决定对利润的贡献:《蝙蝠侠》续集是否要接受男演员片酬的狮子大开口以获得百分之几的忠实粉丝买票入场;是否要在动作片的第37分钟增加感情戏以争取女性观众;是否要为这部烂透了的原著聘请收费高昂的剧本医生;一个小金人编剧的名头到底值多少钱……这就是在电影开机之前最为重要的环节:票房预测。

华尔街不仅给好莱坞带来了密集的资金支持,也带来了理性的金融工程技术,后者好像一把衡量艺术的尺子。一位浸淫于电影行业的金融人士一语中的:"在这个行业里充斥着暧昧不清、晦暗不明,有真正的艺术家、也有忽悠的吹水者,但到底怎么判断是否能合作,项目是否有投资价值,全凭经验"。

如何预测
早在80年代,美国票房收入预测的先驱BarryLitman对美国80年代近700部电影进行分析推出票房收入预测模型。该系统对之后美国电影投资界产生了颠覆性的影响。电影票房预测系统能分析预测不同种类电影的票房价值,已经成为国际电影产业投融资的重要参考工具,对电影产品定价及衍生产品开发都具有较强的指导作用。

预测系统
电影票房量化分析及预测系统(Box Revenue Prediction)是在考察导演、主要演员、制片、发行及市场营销、电影生命周期、电影类型、发行地区等影响电影票房的诸多因素基础上,基于资产定价模型,综合采用金融工程和回归统计分析方法研发出的预测系统。它能分析预测不同种类电影的票房价值,成为电影产业投融资重要参考工具,对电影产品定价及衍生产品开发都具有较强的指导作用。

中国第一套BRP系统

2012年1月,中影集团联合艾亿新融资本推出了国内第一套基于电影票房预测的估值与定价分析系统--BRP系统。通过对过去4年中600多部影片的统计分析,该BRP系统发现了6条有趣的现象:

·低成本的影片一般会比大片更卖座

·无名小卒主演的影片要比明星主演的影片利润率更高

·类型的艺术特征跟利润之间不存在直接关联,但评论的多寡(无论好评或者劣评)跟利润之间有密切关系

·不含暴力、色情成分的家庭影片最容易赚钱

·大片的续集要比普通新片更容易赚钱

·明星在为影片带来更高票房的同时,也往往拉低了利润率,因为大部分收入进了明星的口袋

⑸ 如何用聚类取把电影评分数据集分类

spss聚类分析如果是使用的欧式平方距离进行的分类会产生一张梯度表,利用它做图可以形成聚类的树状图,图上距离越近的类别相似度越高,表格反而没有树状图看起来直观。树状图以距离为标准进行分类,一般学位论文或者期刊论文都采用发表树状图的形式来进行聚类分析表述

⑹ 如何度量大数据对于电影产业的影响

文化产业引入大数据技术有着先天优势。首先,文化产业所拥有的数据具备较高的消费价值。由于文化产业所涉及的行业和产品大多和消费者直接相关,能够直接为用户所消费,有着明确的直接消费价值。其次,文化产业本身就是数据和内容创造的行业,能够不断地产生或获得新的数据资源。根据美国的统计资料,文化传媒行业数据是仅次于政府信息数据的第二大数据来源。第三,文化产业本身就拥有极其雄厚的用户资源,由于文化产业直接面向消费者,由此拥有广阔的用户基数和规模,而基于庞大的用户资源进行数据分析,则将成为文化产业未来基于大数据业务转型的关键性条件。

⑺ 如何分析影片结构

结 构

影片分析中对影片结构的分析是一个非常重要的工作。在我们的影片分析中,大部分同学经常会忽略分析影片结构,甚至,根本不去关注。其实,电影的结构是电影的最重要的艺术形式之一。

结构——是影片的组织排列的方式和叙事组合的构造。

影片的结构,框架,就是电影的风格。

导演根据影片的主题、内容、人物塑造的需要,运用各种手段、方法,将各诸要素合理、有机、完整地组成一个视听整体,达到艺术上的统一。

影片的结构分析是影片分析中的系统工程,我们认定的电影的结构分析应该包括:

二.剧作结构分析:

剧作的分析主要是对电影的情节设置,情节的组织进行系统的分析。

从电影的创作规律研究表明:戏剧性结构的电影无非是无数件有因果关系、有内在联系的事件,有机地、有目的地安排在一起,最终构成一种结局。

纵观世界各国故事片电影的样式,电影的叙事结构、电影的剧作结构及故事的结局基本是四种存在模式:

A、情理之中,预料之中;

B、情理之外,预料之中;

C、情理之中,预料之外;

D、情理之外,预料之外。

但无论哪样的一种结局,都会充满了“因果关系”“偶然关系”“必然关系”和“戏剧关系”的味道,都会有一种人为主观的因素。

非戏剧性结构的电影,在表面构成上,会更为随意,更为自然和偶然的,许许多多的事件被十分有机地,有意地排列在上起,往往在影片的最后形成上,无非是形成两种模式“n个体无意识形成集体的有意识。2)整体有意识形成风格的有意识”。

现代电影的剧作结构,往往有很大的随意性和变异性,重点表现在剧作的合情与合理的处理上,有的合情不合理;有的合理不合情;但是,从大多数的影片的构成上分析,合情比合理更为重要。

2.情节结构分析:

情节的分析主要是对电影的情节安排在排列方式上的整体分析。

传统的电影情节,往往是顺序型的,线型的排列关系,现代电影的情节则更为复杂,更为混淆。但电影的情节和细节是影片结构的重要组成部分。

电影的叙事情节,在总体上构成影片的框架;电影的细节与元素构成影片的内容;电影情节的推动,一般不依靠外部的力量,而着重依赖于人物的动作和细节的设置。

电影情节的编排,往往是依据于人物的心理线索和发展。以往的“戏剧式”电影叙事,对于精巧的外部情节的设计和设置是十分依赖的。

现代电影中,对于叙事中的细节越来越重视,用细节的动作和细节的场面积累来推动情节。这种电影的特点是:重视细节的强调,重视细节的重复,形成影片内在的结构,注重细节的日常化和形象化对人物的塑造和对情节的帮助。

总体来讲,影片的结构是导演风格和主题思想表达的最重要的手段。经分析发现,电影的叙事结构、剧作结构,可以是多种多样的。但是,影片最终结构的选择与确定,一定是有利于影片的主题,有利于人物的塑造,有利于风格的体现,有利于叙事的多样化。

⑻ 数据挖掘 | 数据理解和预处理

数据挖掘 | 数据理解和预处理
小编遇到过很多人(咳咳,请不要对号入座),拿到数据后不管三七二十一,先丢到模型中去跑,管它具体什么样呢,反正“大数据”嘛,总能整出点东西来。
但就像上次说过的,“大数据”很有可能带来“大错误”!所以在数据挖掘工作开始前,认真的理解数据、检查数据,对数据进行预处理是至关重要的。
很多人说,数据准备工作真是个“体力活”,耗时耗力不说,还异常的枯燥无味。这点小编承认,建模之前的数据处理确实是平淡的,它往往不需要多高的智商,多牛的编程技巧,多么高大上的统计模型。
但是,它却能时时触发你的兴奋点,因为它需要足够的耐心和细心,稍不留神就前功尽弃。
在这次的内容里,小编首先会从“数据理解”、“变量类型”和“质量检查”三个方面进行阐述,然后会以一个自己做过的实际数据为例进行展示。
一、数据理解
拿到数据后要做的第一步就是理解数据。
什么是理解数据呢?不是简单看下有多少Excel表,有多少行,多少列,而是要结合自己的分析目标,带着具体的业务需求去看。
首先,我们需要明确数据记录的详细程度,比方说某个网站的访问量数据是以每小时为单位还是每天为单位;一份销售数据记录的是每家门店的销售额还是每个地区的总销售额。
其次,我们需要确定研究群体。研究群体的确定一定和业务目标是密切相关的。
比方说,如果我们想研究用户对产品的满意度与哪些因素有关,就应该把购买该产品的所有客户作为研究群体;如果我们想研究用户的购买行为受哪些因素影响,就应该同时考察购买人群和非购买人群,在两类人群的对比中寻找关键因素。
研究群体的确定有时也和数据的详细程度有关。
比如我们想研究“观众影评”对“电影票房”的影响,我们既可以把“每部电影”看成一个个体,研究“影评总数”对“电影总票房”的影响,也可以把“每部电影每天的票房”看成一个个体,研究“每天的影评数”对“每天的电影票房”的影响。
具体选择哪一种取决于我们手上有什么样的数据,如果只有总票房和总影评数的数据,那我们只能选择第一种;如果有更详细的数据,那就可以考虑第二种方案。
需要注意的是,这两种方案还会影响我们对于模型的选择。
例如,如果研究“每天的影评数”对“每天电影票房”的影响,那每部电影又被细分为很多天,同一部电影不同时间的票房会有较高的相似性,这就形成了一种层次结构,可以考虑使用层次模型(hierarchical model)进行分析。
最后,当我们确定了研究目标和研究群体后,我们需要逐一理解每个变量的含义。有些变量和业务目标明显无关,可以直接从研究中剔除。
有些变量虽然有意义,但是在全部样本上取值都一样,这样的变量就是冗余变量,也需要从研究中剔除。
还有一些变量具有重复的含义,如“省份名称”和“省份简称”,这时只需要保留一个就可以了。
二、变量类型
所有变量按其测量尺度可以分成两大类,一类是“分类变量”,一类是“数值变量”。不同类型的变量在处理方法和后期的模型选择上会有显著差别。
【分类变量】
分类变量又称属性变量或离散变量,它的取值往往用有限的几个类别名称就可以表示了,例如“性别”,“教育程度”,“收入水平”,“星期几”等。细分的话,分类变量又可分为两类,一类是“名义变量”,即各个类别间没有顺序和程度的差别,就像“手机系统”中ios和安卓并没有明显的好坏差别,“电影类型”中“动作片”和“科幻片”也都是一样的,说不上哪个更好或更差。
另外一类是定序变量,即不同类别之间存在有意义的排序,如“空气污染程度”可以用“差、良、优”来表示、“教育程度”可以用“小学、初中、高中、大学”来表示。
当研究的因变量是分类变量时,往往对应特定的分析方法,我们在后面的章节会陆续讲到,这里暂且不谈。
当研究中的自变量是分类变量时,也会限制模型选择的范围。有些数据挖掘模型可以直接处理分类自变量,如决策树模型;但很多数据挖掘模型不能直接处理分类自变量,如线性回归、神经网络等,因此需要将分类变量转换成数值变量。
对于定序自变量,最常用的转换方法就是按照类别程度将其直接转换成数值自变量,例如将空气污染程度 “差、良、优”转换为“1,2,3”。
对于名义自变量,最常用的转换方法就是构造0-1型哑变量。例如,对于“性别”,可以定义“1=男,0=女”。
当某个名义变量有K个类别取值时,则需要构造K-1个哑变量。例如教育程度“小学,初中,高中,大学及以上”,可以构造三个哑变量分别为:x1:1=小学,0=其它;x2:1=初中,0=其它;x3:1=高中,0=其它。当x1,x2,x3三个哑变量取值都为0时,则对应着“大学及以上”。
需要注意的是,有时候名义变量的取值太多,会生成太多的哑变量,这很容易造成模型的过度拟合。
这时可以考虑只把观测比较多的几个类别单独拿出来,而把剩下所有的类别都归为“其它”。
例如,中国一共包含56个民族,如果每个民族都生成一个哑变量就会有55个,这时我们可以只考虑设置“是否为汉族”这一个0-1哑变量。
【数值变量】
我们再来看看数值变量。数值变量就是用数值描述,并且可以直接进行代数运算的变量,如“销售收入”、“固定资本”、“评论总数”、“访问量”、“学生成绩”等等都是数值变量。
需要注意的是,用数值表示的变量不一定就是数值型变量,只有在代数运算下有意义的变量才是数值型变量。
例如财务报表的年份,上市时间等,虽然也是用数值表示的,但我们通常不将它们按照数值型变量来处理。
上面我们讲到,分类变量通常要转换成数值型变量,其实有些时候,数值型变量也需要转换成分类变量,这就用到了“数据分箱”的方法。
为什么要进行数据分箱呢?通常有以下几个原因:
1. 数据的测量可能存在一定误差,没有那么准确,因此按照取值范围转换成不同类别是一个有效的平滑方法;
2.有些算法,如决策树模型,虽然可以处理数值型变量,但是当该变量有大量不重复的取值时,使用大于、小于、等于这些运算符时会考虑很多的情况,因此效率会很低,数据分箱的方法能很好的提高算法效率;
3.有些模型算法只能处理分类型自变量(如关联规则),因此也需要将数值变量进行分箱处理。
数据分箱后,可以使用每个分箱内的均值、中位数、临界值等作为这个类别的代表值,也可以直接将不同取值范围定义成不同的类别,如:将污染程度划分后定义为“低、中、高”等。
那如何进行数据分箱呢?常用的数据分箱的方法有:等宽分箱(将变量的取值范围划分成等宽的几个区间)、等频分箱(按照变量取值的分位数进行划分)、基于k均值聚类的分箱(将所有数据进行k均值聚类,所得的不同类别即为不同的分箱),还有一些有监督分箱方法,如:使分箱后的结果达到最小熵或最小描述长度等。这里不详细介绍了,有兴趣的童鞋可以自行网络。
三、质量检查
对数据中的各个变量有了初步了解后,我们还需要对数据进行严格的质量检查,如果数据质量不过关,还需要进行数据的清洗或修补工作。
一般来说,质量检查包括检查每个变量的缺失程度以及取值范围的合理性。
【缺失检查】
原始数据中经常会存在各种各样的缺失现象。
有些指标的缺失是合理的,例如顾客只有使用过某个产品才能对这个产品的满意度进行评价,一笔贷款的抵押物中只有存在房地产,才会记录相应的房地产的价值情况等。
像这种允许缺失的变量是最难搞的,因为我们很难判断它的缺失是合理的,还是由于漏报造成的。
但无论哪种情况,如果变量的缺失率过高,都会影响数据的整体质量,因为数据所反映的信息实在太少,很难从中挖掘到有用的东西。
对于不允许缺失的变量来说,如果存在缺失情况,就必须进行相应的处理。如果一个变量的缺失程度非常大,比方说达到了70%,那就考虑直接踢掉吧,估计没救了。
如果缺失比例还可以接受的话,可以尝试用缺失值插补的方法进行补救。
插补的目的是使插补值能最大可能的接近其真实的取值,所以如果可以从其他途径得到变量的真实值,那一定优先选择这种方法。
比如某个公司的财务信息中缺失了“最终控制人类型”和“是否国家控股”这两个取值,这些可以通过网上的公开信息得到真实值;再比如缺失了“净利润率”这个指标的取值,但是却有“净利润”和“总收入”的取值,那就可以通过变量间的关系得到相应的缺失值,即净利润率=净利润/总收入。
当然,更多的时候,我们无法得到缺失值的真实信息,这时就只能借用已有的数据来进行插补了。
对数值变量来说,可以用已观测值的均值、中位数来插补缺失值;对分类型变量来说,可以用已观测数据中出现比例最高的类别取值来进行插补。
这些方法操作起来非常简单,但它们都是对所有缺失值赋予了相同的取值,所以当缺失比例较大时,可能会扭曲被插补变量与其余变量的关系。
更复杂一点的,我们可以选择模型插补方法,即针对被插补变量和其它自变量之间的关系建立统计模型(如回归、决策树等),将模型预测值作为插补值。
如何处理缺失值是一个很大的研究课题,我们这里只是介绍了最简单可行的方法,有兴趣的读者可以参阅Little和Rubin 2002年的专著“Statistical Analysis with Missing Data”。
【变量取值合理性检查】
除了缺失外,我们还要考察每个变量的取值合理性。每个变量都会有自己的取值范围,比如“用户访问量”、“下载次数”一定是非负的,“投资收益率”一定在0~1之间。通过判断变量的取值是否超出它应有的取值范围,可以简单的对异常值进行甄别。
除了根据变量的取值范围来检查变量质量外,还可以根据变量之间的相互关系进行判断。例如一家公司的“净利润率”不应该大于“总利润率”等。
只有通过了各个方面检测的数据才是一份高质量的数据,才有可能带来有价值的模型结果。
四、实例分析——电影票房分析
最后,我们给出一个实例分析。在这个例子中,我们的目标是研究电影哪些方面的特征对电影票房有影响。
我们有两方面的数据,一是描述电影特征的数据,二是描述电影票房的数据。
由于我们关注的是北美的票房市场,所以描述电影特征的数据可以从IMDB网站得到,它是一个关于演员、电影、电视节目、电视明星和电影制作的在线数据库,里面可以找到每部上映电影的众多信息;电影每天的票房数据可以从美国权威的票房网站Box Office Mojo得到,上面记录了每部电影上映期间内每天的票房数据。
我们将从IMDB得到的数据放到“movieinfor.csv”文件中,将从Box Office Mojo中得到的数据放到“boxoffice.csv”文件中。
这里,我们以2012年北美票房市场最高的前100部电影为例进行讲解。下表给出了这两个数据集中包含的所有变量以及相应的解释。
在这两个数据中,movieinfor.csv数据的记录是精确到每部电影的,而boxoffice.csv数据精确到了每部电影中每天的票房数据,是精确到天的。上表中给出的变量中,除了电影名称和ID外,“电影类型”“MPAA评级”(美国电影协会对电影的评级)和“星期几”是分类型变量;“放映时长”、“制作预算”、“电影每天的票房”和“每天放映的影院数”是数值型变量。两份数据都不存在缺失值。
我们首先对两个数据集分别进行变量预处理,然后再根据电影ID将两个数据整合到一起。下面给出了每个变量的处理方法:
【电影类型】
电影类型是一个分类变量。在这个变量中我们发现每部电影都不止一个类型,例如“The Dark Knight Rises”这部电影就有“Action”、“Crime”和“Thriller”三个类型,并且它们以“|”为分隔符写在了一起。
同时,不同电影之间可能有相同的类型,也可能有不同的类型,例如票房排名第二的电影“Skyfall”,它的类型是“Action |Adventure |Thriller”。
因此,我们首先需要做的是把每部电影所属的类型逐一取出来,然后将所有出现过的类型分别形成一个0-1哑变量,如果这部电影在某个类型上出现了,则相应变量的取值就是1,否则是0.
通过上面一步,我们知道这个数据集中出现过的所有电影类型一共有11个。
那是不是按照之前所讲的,应该把它转换为10个哑变量呢?这里需要注意的是,所有的电影类型之间并不是互斥的(即有了action,就不能有其他的类型),所以我们无需因为共线性的原因去掉其中一个。
也就是说,如果把每一个电影类型单独作为一个独立的变量,可以衍生出11个新的0-1变量,这完全没有问题。但11个变量未免有点过多,所以我们根据不同电影类型的频数分布情况,只把出现次数明显较多的类型单独拿出来,最终生成了6个0-1型变量,分别为Adventure,Fantasy,Comedy,Action,Animation,Others。
【MPAA评级】
对于这个分类型变量,我们首先可以看一下数据中它所包含的全部取值,发现一共有“PG”,“PG-13”和“R”三个。
和上面的电影类型(Genre)不同,对于一部电影而言,它只能有一个MPAA取值。因此,在MPAA变量中,我们需要选择一个作为基准,将另外两个构造成哑变量。
例如,我们以“PG”为基准,构造的两个哑变量分别为PG13和R,如果这两个哑变量的取值同时为0,那就相当于电影的MPAA评级是PG。
【放映当天是星期几】
这个变量同MPAA评级一样,每部电影只能有一个取值。
如果它在星期一到星期日上都有取值的话,我们可以衍生出6个0-1型哑变量。
因为这里我们更关注周末和非周末对电影票房的影响,而并不关注具体是哪一天,所以我们将其进一步概括成一个变量,即“是否是周末”。
【放映时长和制作预算】
放映时长和制作预算这两个变量都是取值大于0的数值型变量,我们可以分别检查它们的取值是否在合理的范围内,然后直接保留它们的数值信息。
同时,对“制作预算”而言,假设我们这里关心的不是制作预算的具体数值,而是“小成本电影”和“大成本电影”的票房差异,那我们就可以将这个数值型变量进行分箱处理,转换为一个0-1型的分类变量,即 “是否为小成本电影”。
在决定按照什么标准来划分是否为小成本电影时,我们根据之前文献里的研究结果,将制作预算在100 million以下的电影看成是小成本电影。
上述所有变量的处理过程都可以使用R中最基本的语句(table,rep,which等)完成,由于篇幅限制,小编这里就不列出详细的code了,大家感兴趣的话,可以阅读狗熊会的“R语千寻”系列(戳这里),相信会在R语言的学习上受到更多启发。
最后,我们将所有新生成的变量按照电影ID整合到一起,就大功告成啦。
五、总结
最后总结一下,小编在这次内容中向大家介绍了拿到数据后的数据理解和预处理工作,内容虽然不难,但同样需要我们认真对待。就好像生活一样,只有踏踏实实走好前面的路,才有可能迎接后面的高潮迭起!

⑼ 有什么软件是分析电影营销数据

可以去猫眼软件看电影营销数据。
猫眼专业手机版2022是一款可以为用户提供大量专业票房分析的软件,本软件中的各种票房分析及相关数据分析功能也免费提供给用户。各种票房数据都是非常专业的展示,用户观看的各种扇形数据图可以一目了然地显示各种电影票房数据的分布。

⑽ 如何利用大数据分析工具分析豆瓣电影

小组功能是豆瓣对用户分析的利器。两个用户加同一个小组,说明他们之间的兴趣爱好会很接近。
读书、音乐、电影等等也是类似。根据这些数据,豆瓣能准确猜测出用户的各种资料,例如地域、性别、年龄、学历、学校、喜好等等,只有当有了这些数据的时候,豆瓣电台才成为可能。

阅读全文

与怎么对电影数据进行分析相关的资料

热点内容
黄渤是怎么耍无赖电影 浏览:635
大红包电影有哪些赞助商 浏览:647
有什么讲童年的电影 浏览:496
美国近三年好看的电影 浏览:994
2012世界末日微电影免费 浏览:308
把魂魄打在猪身上什么电影 浏览:460
一个电影剧本一般可以卖多少钱 浏览:56
大白鲨电影国语免费下载 浏览:889
人车群是什么电影 浏览:395
3月有哪些电影值得期待 浏览:371
王大宇是什么电影 浏览:973
舒淇三级全电影有哪些 浏览:506
u盘怎么下电影到车上 浏览:536
小情侣如何一起看电影 浏览:969
更多免费电影 浏览:819
电影点映怎么买票看 浏览:342
怎么用手机看电脑里的电影票 浏览:818
韩国中毒电影免费观看完整版 浏览:738
关于好看的动漫电影 浏览:28
贾玲电影为什么不用白凯南 浏览:247