⑴ 分析電影數據的用哪個分析方法好
有啊 ,比如最簡單的一個比方,《青春期》。這電影爛的不能在爛,但是用了一些觀眾數據很輕松對了 不知道多少錢,反正是賺了不少 幾千萬那樣子吧
⑵ 數據分析需要掌握些什麼知識
我們先從整體上了解數據分析師要掌握的技能有哪些,然後再從具體職位類別來看,不同的職位具體要掌握的技能有哪些。
這樣你就能根據自己的實際情況,有針對性的准備和學習。
一、數據分析的勝任力模型是什麼?
從整體上來看,數據分析師需要掌握的能力有很多,從總體上可以分為以下幾類,這些能力構成了數據分析師的能力模型。
1)理論基礎,包括統計學
2)數據分析工具,常用的分析工具有 Excel,SQL,Python 等
3)可視化工具,常用的有 Excel,商業智能(Business Intelligence,BI)
4)業務知識,包括常用的指標、某行業的業務流程
5)數據分析思維,包括常用的分析方法
6)通用能力,包括 PPT、溝通能力
下面我們來詳細看下每一種能力的要求。
理論基礎:統計學
數據分析背後的理論基礎是統計學。所以,掌握了統計學以後我們才能去看懂數據表達的意義是什麼。舉個例子,給你一家公司員工的工資,是平均值能代表這家公司的工資水平,還是中位數能代表?
如果沒學過統計學,那麼可能只認識這里的平均值,而不知道中位數這個知識。但是,如果你學過了統計學就會知道,中位數比平均值更能反映出數據的集中表現。
統計學的內容比較多,詳細又可以分為兩類內容:描述統計分析、推論統計分析。
什麼是描述統計分析?
對大量信息進行歸納是處理數據時最基本的任務。中國約有 14 億人,一張記錄每位中國人的姓名和收入的電子表格包含了我們衡量這個國家經濟健康狀況所需的所有信息,通常我們也將多個數據集合在一起的東東叫「簡稱數據集」。但這張信息過量的表格其實相當於什麼都沒有告訴我們。這就是讓人覺得諷刺的地方:經常是數據越多,事實越模糊。
因此,我們需要簡化,將一系列復雜的數據減少為幾個能夠起到描述作用的數字,正如奧運會體操比賽中,我們將一套多難度組合的復雜動作濃縮為一個得分:9.8 分。
描述統計分析就是將一系列復雜的數據減少為幾個能夠起到描述作用的數字,用這些有代表性的數字來代表所有的數據。這樣在面對一大堆數據時,你可在不知道所有數據的情況下就能知道數據的整體情況。
這就好比,我們通常一說起美女,能想到的是這樣幾個指標:長腿,大眼睛,臉蛋好看。雖然全國有那麼多美女,你也沒有見過全部的美女,但是你卻能通過這樣幾個代表美女的指標就可以大概知道什麼是美女。
同樣的,描述統計學的關鍵點在於,找到幾個關鍵的數字來描述數據的整體情況。那麼,問題就來了,能擔當起這樣重要責任的數字有哪些呢?描述數據的整體情況,我們可以用 4 個指標來做,分別是:平均值、四分位數、標准差和標准分。例如,前面我們在拿到工資數據,就可以用「中位數」這樣的數字來描述工資的整體情況。
所以,描述統計分析就是掌握 4 個指標:平均值,四分位數,標准差和標准分。
什麼是推論統計分析?
推論統計分析就是通過樣本來推斷出總體。需要掌握的知識包括概率分布、中心極限定、如何用樣本估計總體、置信區間、假設檢驗。例如,互聯網常用的 AB 測試背後的原理就是假設檢驗,如果不掌握推論統計分析,那麼連 AB 測試的結果也看不懂,更不用說完成一個 AB 測試實驗。
2.數據分析工具
很多人看到現在 Python 很火,就不管自己的能力水平如何,就一頭扎進學習 Python 的大潮,最後發現其實自己學不會,或者學完用不上。
這其實是不對的,真正工作里最常用的數據分析工具其實是 Excel,SQL。所以,如果你的零基礎,不建議一上來就學 Python,而是先學會 Excel 分析數據,然後學會 SQL。
這樣你學會了常用的分析工具,然後再學 Python 才是加分項。同時,這樣學習的順序還有一個好處,如果你是零基礎沒學過編程,一上來學 Python,大概率是學不會的。但是如果你學過用 Excel、SQL 處理數據,那麼就具備了一定的基礎,再學 Python,很多概念就會理解起來比較容易。
這就好比,一個嬰兒不是一上來就學習跑步(Python),而是先把走路學會,具備了走路(Excel、SQL)的基礎,再跑步就容易多了。
需要注意的是,除非是工作必須要求的,其他少部分公司用的工具其實不需要學習。比如有些公司要求其他編程語言,例如 R、SPSS、SAS 這些工具。
現在 Pyhon 已經是人工智慧排名第一的編程語言了,大部分公司要求 Python,很少部分的公司要求其他的編程語言,所以學習市場要求最多的那個技能才能找到更多機會。如果你學習了少部分公司才要求的工具,那麼意味著你找工作或者跳槽只能選擇這些公司,而會錯失其他大部分公司的求職機會,對你整個職業生涯不利。
TIOBE 編程語言排行榜是全球編程語言流行趨勢的一個指標,每月更新,官網地址(https://www.tiobe.com/tiobe-index)。下圖是 2021 年 2 月份排名前 10 的編程語言的變化圖,其中橙色曲線是 Python,我們會發現 Python 的流行趨勢越來越高。
3.可視化工具
常用的可視化工具包括 Excel、商業智能(BI)。
一般的可視化圖表用 Excel 里的圖表功能就可以實現,而且使用起來也方便。如果是要經常做報表,並且要求實現報表自動化,那麼就需要用到商業智能(BI)工具。
那什麼是商業智能(BI)呢?
微軟官方給的定義是「使用用於自助服務和企業商業智能 (BI) 的統一、可擴展平台(該平台易於使用,可幫助獲取更深入的數據見解),連接到任何數據並對數據進行可視化。 」
毫無懸念,看這種官方定義就是看不懂。簡單來說就是把數據導入商業智能(BI)工具中,就可以快速對數據可視化。例如下圖就是把數據導入用商業智能(BI)工具中,通過可視化數據來分析。
IDC《2019 年下半年中國商業智能軟體市場數據跟蹤報告》顯示,在中國商業智能軟體子市場中,報表分析仍是目前市場最主要的需求,2019 年全年年市場份額佔比為 79.0%。高級分析和預測分析市場份額佔比 21.0%(下圖)。
常用的商業智能(BI)工具有哪些呢?
目前使用最多的商業智能(BI)工具是 Power BI、Tableau、帆軟,選擇其中任意一種學習就可以了。
4.業務知識
因為數據分析是用來解決具體行業問題的,需要從業務的角度出發,了解各個指標,以及每個指標之間的關系,還需要聯系業務去理解數據。所以,工作中數據分析脫離不了業務,在分析中要找到導致問題發生的根本原因,而不只是單純的統計數據。
因此需要具備某個行業的業務知識才能去理解這個行業里的術語、業務問題等。
業務知識包括某個行業的常用指標、業務流程。需要注意的是,不同行業的指標、業務流程是不一樣的,所以需要學習的時候針對你的目標行業去學習准備。例如,下圖分別是金融信貸行業、在線教育行業的業務流程。
金融信貸行業業務流程(來自書《數據分析思維》)
在線教育業務流程(來自書《數據分析思維》)
如果是剛入門,這塊內容做到了解即可,等進入工作以後,再慢慢深入業務,積累業務經驗。具體某個行業的常用指標、業務流程可以看書《數據分析思維》,這本書里涉及了 10 多個行業的指標、業務流程。
5.數據分析思維
在數據分析相關的職位里經常會寫這么一條招聘要求「具備數據分析思維」。在工作或者面試中,會經常聽到分析思維、分析思路、分析方法。這三個詞語有什麼關系呢?其實簡單來說,它們都是指分析方法。
數據分析思維需要你掌握 10 種常用的分析方法。
數據分析 10 種常用的分析方法
如果你的分析目的是想將復雜問題變得簡單,就可以使用邏輯樹分析方法,例如經典的費米問題就可以用這個分析方法。
如果你的分析目的是做行業分析,那麼就可以用 PEST 分析方法,例如你想要研究中國少兒編程行業。
如果你想從多個角度去思考問題,那麼就可以用多維度拆解分析方法,例如找相親對象,需要從多個角度去分析是否合適。
如果你想進行對比分析,就要用到對比分析方法,例如你朋友問自己胖嗎,就是在對比。
如果你想找到問題發生的原因,那麼就要用到假設檢驗分析方法,其實破案劇里警察就是用這個方法來破案的。
如果你想知道 A 和 B 有什麼關系,就要用到相關分析方法,例如豆瓣在我們喜歡的電影下面推薦和這部分電影相關的電影。
如果你想對用戶留存和流失分析,就要用到群組分析方法,例如微博用戶留存分析。
如果你想對用戶按價值分類,那麼就要用到 RFM 分析方法,例如信用卡的會員服務,就是對用戶按價值分類,對不同用戶使用不同的營銷策略,從而做到精細化運營。
如果你想分析用戶的行為或者做產品運營,就要用到 AARRR 模型分析方法,例如對拼多多的用戶進行分析。
如果你想分析用戶的轉化,就要用到漏斗分析方法,例如店鋪本周銷量下降,想知道是中間哪個業務環節出了問題。
6.通用能力
通用能力包括 PPT 製作分析報告、溝通能力。
在工作中,要經常做分析結果做成數據分析報告,然後展示給業務部門、上級領導、客戶等,而這種展示數據分析報告的場景常用的工具就是 PPT,所以就要求你會用 PPT 製作數據分析報告,有較好的的文字、書面總結能力。
職業社交網站領英發布的《2018 新興工作崗位報告》報告里說,最大的技能缺口是軟技能,比如口頭交流、領導力和時間管理等。這份報告中建議,職場人士需要在快速變化的工作環境中,學習並保持軟技能,因為擁有這些技能的人才具備更大的職場優勢。
其實,任何職位都需要溝通能力,但是,數據分析師對溝通能力的要求更高。因為,數據分析師解決的是實際的問題,需要跨部門溝通業務,做好的數據分析報告也要展示給各個部門、領導、客戶,只有好的溝通能力,才能讓你的分析結果得到用戶的認可。 那麼這些通用能力如何提升呢?最直接的方式,就是通過寫文章來提升。
通過寫作可以同時提升你下面 3 個能力:
1)邏輯能力
寫作的本質其實是把一件事情講清楚,而邏輯能力強的人寫出來的內容,讀起來更順暢。
2)文字表達能力
數據分析師要經常做數據分析報告,和通過郵件匯報分析結果。這體現的其實就是文字表達能力,提高這個能力的辦法就是不斷去寫作。
3)溝通能力
寫作其實就是把想說的話通過文字和你的用戶去溝通。另外,經常在社群里提問和解答他人的問題,也可以提高你的溝通能力。你會看到不同人提問的水平是不一樣的,有的人可以完整的把一個問題描述清楚,有的人說完,其他人也不明白他的問題是什麼。這其實就是體現了溝通能力。
二、不同職位的數據分析能力要求有什麼不一樣?
經過前面的分析,我們從整體上知道了數據分析師需要掌握的能力。但並不是說,這些能力全都掌握了你才能找到一份數據分析師的工作。因為不同的職位的要求不一樣的。在《職業發展前景:數據分析師的晉升通道》章節我們知道了數據分析相關職位的分類。
我把勝任力模型中的這些能力對應到不同的職位,就可以清楚的看到對應職位的能力要求(下圖)。
有一個誤區,很多人以為只要掌握了分析工具,就掌握了數據分析,其實不是的。從圖中,我們可以看出。各個數據分析職位都需要的能力是:業務知識、分析思維、PPT、溝通能力。這些能力才可以讓你從一個只會舞弄工具的普通職場人變成真正解決業務問題的職場高手。
很多人以為數據分析師需要掌握很高大的工具,其實不是的。例如騰訊里有一個崗位叫「商業數據分析師」,這聽起來很高大上。其實這個職位對應的就是上圖初級數據分析師的能力要求,也就是理論基礎(描述統計分析),分析工具(Excel),可視化工具(Excel)。
上圖中黃色標出的是相對於前一職位多出來的能力。中級數據分析師在初級數據分析師要求的能力上增加了分析工具(SQL),可視化工具(商業智能 BI)。高級數據分析師在中級數據分析師要求的能力上增加了理論基礎(推論統計分析),分析工具(Python)。
Excel、SQL、Python 要掌握到什麼程度?
我們知道了數據分析師最常用的分析工具是 Excel、SQL、Python。那麼問題就來了,這些分析工具具體掌握哪些內容呢?
⑶ 如何分析影片
一部影片的構成,不同角度會有不同的分析結果,但無外乎主題、結構,人物,和場景、攝影,音樂等。而其中分析主題是最為核心,也是最為關鍵的,其他的角度都是為了更好的服務這個角度,是形式與內容的關系,所以我們重點來說說電影主題的分析。
確立主題
在經過上述幾個方面的分析後,我們基本能確立電影的主題,也就是講述了一個什麼樣的故事,然後,這還只是一個粗略的判斷,只是為更細致的分析找到了起點。如果我們對影片主題的分析,不能支持最初的看法,主要是通過攝影,音樂,台詞,節奏等分析,無法得出一致的結論,則應該根據分析所暗示的新方向重新考慮。
答主:王忠瑋,邀你關注微信公眾號【營銷航班】
⑷ 電影票房分析及預測
從20世紀初的西洋鏡戲法到今天占據全球電影業總產值的三分之一強,資本的加入讓好萊塢在過去百年的發展中變得越來越理智--比起商業片流水線締造者,它更像一個數學家--它精於計算每一項決定對利潤的貢獻:《蝙蝠俠》續集是否要接受男演員片酬的獅子大開口以獲得百分之幾的忠實粉絲買票入場;是否要在動作片的第37分鍾增加感情戲以爭取女性觀眾;是否要為這部爛透了的原著聘請收費高昂的劇本醫生;一個小金人編劇的名頭到底值多少錢……這就是在電影開機之前最為重要的環節:票房預測。
華爾街不僅給好萊塢帶來了密集的資金支持,也帶來了理性的金融工程技術,後者好像一把衡量藝術的尺子。一位浸淫於電影行業的金融人士一語中的:"在這個行業里充斥著曖昧不清、晦暗不明,有真正的藝術家、也有忽悠的吹水者,但到底怎麼判斷是否能合作,項目是否有投資價值,全憑經驗"。
如何預測
早在80年代,美國票房收入預測的先驅BarryLitman對美國80年代近700部電影進行分析推出票房收入預測模型。該系統對之後美國電影投資界產生了顛覆性的影響。電影票房預測系統能分析預測不同種類電影的票房價值,已經成為國際電影產業投融資的重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。
預測系統
電影票房量化分析及預測系統(Box Revenue Prediction)是在考察導演、主要演員、製片、發行及市場營銷、電影生命周期、電影類型、發行地區等影響電影票房的諸多因素基礎上,基於資產定價模型,綜合採用金融工程和回歸統計分析方法研發出的預測系統。它能分析預測不同種類電影的票房價值,成為電影產業投融資重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。
中國第一套BRP系統
2012年1月,中影集團聯合艾億新融資本推出了國內第一套基於電影票房預測的估值與定價分析系統--BRP系統。通過對過去4年中600多部影片的統計分析,該BRP系統發現了6條有趣的現象:
·低成本的影片一般會比大片更賣座
·無名小卒主演的影片要比明星主演的影片利潤率更高
·類型的藝術特徵跟利潤之間不存在直接關聯,但評論的多寡(無論好評或者劣評)跟利潤之間有密切關系
·不含暴力、色情成分的家庭影片最容易賺錢
·大片的續集要比普通新片更容易賺錢
·明星在為影片帶來更高票房的同時,也往往拉低了利潤率,因為大部分收入進了明星的口袋
⑸ 如何用聚類取把電影評分數據集分類
spss聚類分析如果是使用的歐式平方距離進行的分類會產生一張梯度表,利用它做圖可以形成聚類的樹狀圖,圖上距離越近的類別相似度越高,表格反而沒有樹狀圖看起來直觀。樹狀圖以距離為標准進行分類,一般學位論文或者期刊論文都採用發表樹狀圖的形式來進行聚類分析表述
⑹ 如何度量大數據對於電影產業的影響
文化產業引入大數據技術有著先天優勢。首先,文化產業所擁有的數據具備較高的消費價值。由於文化產業所涉及的行業和產品大多和消費者直接相關,能夠直接為用戶所消費,有著明確的直接消費價值。其次,文化產業本身就是數據和內容創造的行業,能夠不斷地產生或獲得新的數據資源。根據美國的統計資料,文化傳媒行業數據是僅次於政府信息數據的第二大數據來源。第三,文化產業本身就擁有極其雄厚的用戶資源,由於文化產業直接面向消費者,由此擁有廣闊的用戶基數和規模,而基於龐大的用戶資源進行數據分析,則將成為文化產業未來基於大數據業務轉型的關鍵性條件。
⑺ 如何分析影片結構
結 構
影片分析中對影片結構的分析是一個非常重要的工作。在我們的影片分析中,大部分同學經常會忽略分析影片結構,甚至,根本不去關注。其實,電影的結構是電影的最重要的藝術形式之一。
結構——是影片的組織排列的方式和敘事組合的構造。
影片的結構,框架,就是電影的風格。
導演根據影片的主題、內容、人物塑造的需要,運用各種手段、方法,將各諸要素合理、有機、完整地組成一個視聽整體,達到藝術上的統一。
影片的結構分析是影片分析中的系統工程,我們認定的電影的結構分析應該包括:
二.劇作結構分析:
劇作的分析主要是對電影的情節設置,情節的組織進行系統的分析。
從電影的創作規律研究表明:戲劇性結構的電影無非是無數件有因果關系、有內在聯系的事件,有機地、有目的地安排在一起,最終構成一種結局。
縱觀世界各國故事片電影的樣式,電影的敘事結構、電影的劇作結構及故事的結局基本是四種存在模式:
A、情理之中,預料之中;
B、情理之外,預料之中;
C、情理之中,預料之外;
D、情理之外,預料之外。
但無論哪樣的一種結局,都會充滿了「因果關系」「偶然關系」「必然關系」和「戲劇關系」的味道,都會有一種人為主觀的因素。
非戲劇性結構的電影,在表面構成上,會更為隨意,更為自然和偶然的,許許多多的事件被十分有機地,有意地排列在上起,往往在影片的最後形成上,無非是形成兩種模式「n個體無意識形成集體的有意識。2)整體有意識形成風格的有意識」。
現代電影的劇作結構,往往有很大的隨意性和變異性,重點表現在劇作的合情與合理的處理上,有的合情不合理;有的合理不合情;但是,從大多數的影片的構成上分析,合情比合理更為重要。
2.情節結構分析:
情節的分析主要是對電影的情節安排在排列方式上的整體分析。
傳統的電影情節,往往是順序型的,線型的排列關系,現代電影的情節則更為復雜,更為混淆。但電影的情節和細節是影片結構的重要組成部分。
電影的敘事情節,在總體上構成影片的框架;電影的細節與元素構成影片的內容;電影情節的推動,一般不依靠外部的力量,而著重依賴於人物的動作和細節的設置。
電影情節的編排,往往是依據於人物的心理線索和發展。以往的「戲劇式」電影敘事,對於精巧的外部情節的設計和設置是十分依賴的。
現代電影中,對於敘事中的細節越來越重視,用細節的動作和細節的場面積累來推動情節。這種電影的特點是:重視細節的強調,重視細節的重復,形成影片內在的結構,注重細節的日常化和形象化對人物的塑造和對情節的幫助。
總體來講,影片的結構是導演風格和主題思想表達的最重要的手段。經分析發現,電影的敘事結構、劇作結構,可以是多種多樣的。但是,影片最終結構的選擇與確定,一定是有利於影片的主題,有利於人物的塑造,有利於風格的體現,有利於敘事的多樣化。
⑻ 數據挖掘 | 數據理解和預處理
數據挖掘 | 數據理解和預處理
小編遇到過很多人(咳咳,請不要對號入座),拿到數據後不管三七二十一,先丟到模型中去跑,管它具體什麼樣呢,反正「大數據」嘛,總能整出點東西來。
但就像上次說過的,「大數據」很有可能帶來「大錯誤」!所以在數據挖掘工作開始前,認真的理解數據、檢查數據,對數據進行預處理是至關重要的。
很多人說,數據准備工作真是個「體力活」,耗時耗力不說,還異常的枯燥無味。這點小編承認,建模之前的數據處理確實是平淡的,它往往不需要多高的智商,多牛的編程技巧,多麼高大上的統計模型。
但是,它卻能時時觸發你的興奮點,因為它需要足夠的耐心和細心,稍不留神就前功盡棄。
在這次的內容里,小編首先會從「數據理解」、「變數類型」和「質量檢查」三個方面進行闡述,然後會以一個自己做過的實際數據為例進行展示。
一、數據理解
拿到數據後要做的第一步就是理解數據。
什麼是理解數據呢?不是簡單看下有多少Excel表,有多少行,多少列,而是要結合自己的分析目標,帶著具體的業務需求去看。
首先,我們需要明確數據記錄的詳細程度,比方說某個網站的訪問量數據是以每小時為單位還是每天為單位;一份銷售數據記錄的是每家門店的銷售額還是每個地區的總銷售額。
其次,我們需要確定研究群體。研究群體的確定一定和業務目標是密切相關的。
比方說,如果我們想研究用戶對產品的滿意度與哪些因素有關,就應該把購買該產品的所有客戶作為研究群體;如果我們想研究用戶的購買行為受哪些因素影響,就應該同時考察購買人群和非購買人群,在兩類人群的對比中尋找關鍵因素。
研究群體的確定有時也和數據的詳細程度有關。
比如我們想研究「觀眾影評」對「電影票房」的影響,我們既可以把「每部電影」看成一個個體,研究「影評總數」對「電影總票房」的影響,也可以把「每部電影每天的票房」看成一個個體,研究「每天的影評數」對「每天的電影票房」的影響。
具體選擇哪一種取決於我們手上有什麼樣的數據,如果只有總票房和總影評數的數據,那我們只能選擇第一種;如果有更詳細的數據,那就可以考慮第二種方案。
需要注意的是,這兩種方案還會影響我們對於模型的選擇。
例如,如果研究「每天的影評數」對「每天電影票房」的影響,那每部電影又被細分為很多天,同一部電影不同時間的票房會有較高的相似性,這就形成了一種層次結構,可以考慮使用層次模型(hierarchical model)進行分析。
最後,當我們確定了研究目標和研究群體後,我們需要逐一理解每個變數的含義。有些變數和業務目標明顯無關,可以直接從研究中剔除。
有些變數雖然有意義,但是在全部樣本上取值都一樣,這樣的變數就是冗餘變數,也需要從研究中剔除。
還有一些變數具有重復的含義,如「省份名稱」和「省份簡稱」,這時只需要保留一個就可以了。
二、變數類型
所有變數按其測量尺度可以分成兩大類,一類是「分類變數」,一類是「數值變數」。不同類型的變數在處理方法和後期的模型選擇上會有顯著差別。
【分類變數】
分類變數又稱屬性變數或離散變數,它的取值往往用有限的幾個類別名稱就可以表示了,例如「性別」,「教育程度」,「收入水平」,「星期幾」等。細分的話,分類變數又可分為兩類,一類是「名義變數」,即各個類別間沒有順序和程度的差別,就像「手機系統」中ios和安卓並沒有明顯的好壞差別,「電影類型」中「動作片」和「科幻片」也都是一樣的,說不上哪個更好或更差。
另外一類是定序變數,即不同類別之間存在有意義的排序,如「空氣污染程度」可以用「差、良、優」來表示、「教育程度」可以用「小學、初中、高中、大學」來表示。
當研究的因變數是分類變數時,往往對應特定的分析方法,我們在後面的章節會陸續講到,這里暫且不談。
當研究中的自變數是分類變數時,也會限制模型選擇的范圍。有些數據挖掘模型可以直接處理分類自變數,如決策樹模型;但很多數據挖掘模型不能直接處理分類自變數,如線性回歸、神經網路等,因此需要將分類變數轉換成數值變數。
對於定序自變數,最常用的轉換方法就是按照類別程度將其直接轉換成數值自變數,例如將空氣污染程度 「差、良、優」轉換為「1,2,3」。
對於名義自變數,最常用的轉換方法就是構造0-1型啞變數。例如,對於「性別」,可以定義「1=男,0=女」。
當某個名義變數有K個類別取值時,則需要構造K-1個啞變數。例如教育程度「小學,初中,高中,大學及以上」,可以構造三個啞變數分別為:x1:1=小學,0=其它;x2:1=初中,0=其它;x3:1=高中,0=其它。當x1,x2,x3三個啞變數取值都為0時,則對應著「大學及以上」。
需要注意的是,有時候名義變數的取值太多,會生成太多的啞變數,這很容易造成模型的過度擬合。
這時可以考慮只把觀測比較多的幾個類別單獨拿出來,而把剩下所有的類別都歸為「其它」。
例如,中國一共包含56個民族,如果每個民族都生成一個啞變數就會有55個,這時我們可以只考慮設置「是否為漢族」這一個0-1啞變數。
【數值變數】
我們再來看看數值變數。數值變數就是用數值描述,並且可以直接進行代數運算的變數,如「銷售收入」、「固定資本」、「評論總數」、「訪問量」、「學生成績」等等都是數值變數。
需要注意的是,用數值表示的變數不一定就是數值型變數,只有在代數運算下有意義的變數才是數值型變數。
例如財務報表的年份,上市時間等,雖然也是用數值表示的,但我們通常不將它們按照數值型變數來處理。
上面我們講到,分類變數通常要轉換成數值型變數,其實有些時候,數值型變數也需要轉換成分類變數,這就用到了「數據分箱」的方法。
為什麼要進行數據分箱呢?通常有以下幾個原因:
1. 數據的測量可能存在一定誤差,沒有那麼准確,因此按照取值范圍轉換成不同類別是一個有效的平滑方法;
2.有些演算法,如決策樹模型,雖然可以處理數值型變數,但是當該變數有大量不重復的取值時,使用大於、小於、等於這些運算符時會考慮很多的情況,因此效率會很低,數據分箱的方法能很好的提高演算法效率;
3.有些模型演算法只能處理分類型自變數(如關聯規則),因此也需要將數值變數進行分箱處理。
數據分箱後,可以使用每個分箱內的均值、中位數、臨界值等作為這個類別的代表值,也可以直接將不同取值范圍定義成不同的類別,如:將污染程度劃分後定義為「低、中、高」等。
那如何進行數據分箱呢?常用的數據分箱的方法有:等寬分箱(將變數的取值范圍劃分成等寬的幾個區間)、等頻分箱(按照變數取值的分位數進行劃分)、基於k均值聚類的分箱(將所有數據進行k均值聚類,所得的不同類別即為不同的分箱),還有一些有監督分箱方法,如:使分箱後的結果達到最小熵或最小描述長度等。這里不詳細介紹了,有興趣的童鞋可以自行網路。
三、質量檢查
對數據中的各個變數有了初步了解後,我們還需要對數據進行嚴格的質量檢查,如果數據質量不過關,還需要進行數據的清洗或修補工作。
一般來說,質量檢查包括檢查每個變數的缺失程度以及取值范圍的合理性。
【缺失檢查】
原始數據中經常會存在各種各樣的缺失現象。
有些指標的缺失是合理的,例如顧客只有使用過某個產品才能對這個產品的滿意度進行評價,一筆貸款的抵押物中只有存在房地產,才會記錄相應的房地產的價值情況等。
像這種允許缺失的變數是最難搞的,因為我們很難判斷它的缺失是合理的,還是由於漏報造成的。
但無論哪種情況,如果變數的缺失率過高,都會影響數據的整體質量,因為數據所反映的信息實在太少,很難從中挖掘到有用的東西。
對於不允許缺失的變數來說,如果存在缺失情況,就必須進行相應的處理。如果一個變數的缺失程度非常大,比方說達到了70%,那就考慮直接踢掉吧,估計沒救了。
如果缺失比例還可以接受的話,可以嘗試用缺失值插補的方法進行補救。
插補的目的是使插補值能最大可能的接近其真實的取值,所以如果可以從其他途徑得到變數的真實值,那一定優先選擇這種方法。
比如某個公司的財務信息中缺失了「最終控制人類型」和「是否國家控股」這兩個取值,這些可以通過網上的公開信息得到真實值;再比如缺失了「凈利潤率」這個指標的取值,但是卻有「凈利潤」和「總收入」的取值,那就可以通過變數間的關系得到相應的缺失值,即凈利潤率=凈利潤/總收入。
當然,更多的時候,我們無法得到缺失值的真實信息,這時就只能借用已有的數據來進行插補了。
對數值變數來說,可以用已觀測值的均值、中位數來插補缺失值;對分類型變數來說,可以用已觀測數據中出現比例最高的類別取值來進行插補。
這些方法操作起來非常簡單,但它們都是對所有缺失值賦予了相同的取值,所以當缺失比例較大時,可能會扭曲被插補變數與其餘變數的關系。
更復雜一點的,我們可以選擇模型插補方法,即針對被插補變數和其它自變數之間的關系建立統計模型(如回歸、決策樹等),將模型預測值作為插補值。
如何處理缺失值是一個很大的研究課題,我們這里只是介紹了最簡單可行的方法,有興趣的讀者可以參閱Little和Rubin 2002年的專著「Statistical Analysis with Missing Data」。
【變數取值合理性檢查】
除了缺失外,我們還要考察每個變數的取值合理性。每個變數都會有自己的取值范圍,比如「用戶訪問量」、「下載次數」一定是非負的,「投資收益率」一定在0~1之間。通過判斷變數的取值是否超出它應有的取值范圍,可以簡單的對異常值進行甄別。
除了根據變數的取值范圍來檢查變數質量外,還可以根據變數之間的相互關系進行判斷。例如一家公司的「凈利潤率」不應該大於「總利潤率」等。
只有通過了各個方面檢測的數據才是一份高質量的數據,才有可能帶來有價值的模型結果。
四、實例分析——電影票房分析
最後,我們給出一個實例分析。在這個例子中,我們的目標是研究電影哪些方面的特徵對電影票房有影響。
我們有兩方面的數據,一是描述電影特徵的數據,二是描述電影票房的數據。
由於我們關注的是北美的票房市場,所以描述電影特徵的數據可以從IMDB網站得到,它是一個關於演員、電影、電視節目、電視明星和電影製作的在線資料庫,裡面可以找到每部上映電影的眾多信息;電影每天的票房數據可以從美國權威的票房網站Box Office Mojo得到,上面記錄了每部電影上映期間內每天的票房數據。
我們將從IMDB得到的數據放到「movieinfor.csv」文件中,將從Box Office Mojo中得到的數據放到「boxoffice.csv」文件中。
這里,我們以2012年北美票房市場最高的前100部電影為例進行講解。下表給出了這兩個數據集中包含的所有變數以及相應的解釋。
在這兩個數據中,movieinfor.csv數據的記錄是精確到每部電影的,而boxoffice.csv數據精確到了每部電影中每天的票房數據,是精確到天的。上表中給出的變數中,除了電影名稱和ID外,「電影類型」「MPAA評級」(美國電影協會對電影的評級)和「星期幾」是分類型變數;「放映時長」、「製作預算」、「電影每天的票房」和「每天放映的影院數」是數值型變數。兩份數據都不存在缺失值。
我們首先對兩個數據集分別進行變數預處理,然後再根據電影ID將兩個數據整合到一起。下面給出了每個變數的處理方法:
【電影類型】
電影類型是一個分類變數。在這個變數中我們發現每部電影都不止一個類型,例如「The Dark Knight Rises」這部電影就有「Action」、「Crime」和「Thriller」三個類型,並且它們以「|」為分隔符寫在了一起。
同時,不同電影之間可能有相同的類型,也可能有不同的類型,例如票房排名第二的電影「Skyfall」,它的類型是「Action |Adventure |Thriller」。
因此,我們首先需要做的是把每部電影所屬的類型逐一取出來,然後將所有出現過的類型分別形成一個0-1啞變數,如果這部電影在某個類型上出現了,則相應變數的取值就是1,否則是0.
通過上面一步,我們知道這個數據集中出現過的所有電影類型一共有11個。
那是不是按照之前所講的,應該把它轉換為10個啞變數呢?這里需要注意的是,所有的電影類型之間並不是互斥的(即有了action,就不能有其他的類型),所以我們無需因為共線性的原因去掉其中一個。
也就是說,如果把每一個電影類型單獨作為一個獨立的變數,可以衍生出11個新的0-1變數,這完全沒有問題。但11個變數未免有點過多,所以我們根據不同電影類型的頻數分布情況,只把出現次數明顯較多的類型單獨拿出來,最終生成了6個0-1型變數,分別為Adventure,Fantasy,Comedy,Action,Animation,Others。
【MPAA評級】
對於這個分類型變數,我們首先可以看一下數據中它所包含的全部取值,發現一共有「PG」,「PG-13」和「R」三個。
和上面的電影類型(Genre)不同,對於一部電影而言,它只能有一個MPAA取值。因此,在MPAA變數中,我們需要選擇一個作為基準,將另外兩個構造成啞變數。
例如,我們以「PG」為基準,構造的兩個啞變數分別為PG13和R,如果這兩個啞變數的取值同時為0,那就相當於電影的MPAA評級是PG。
【放映當天是星期幾】
這個變數同MPAA評級一樣,每部電影只能有一個取值。
如果它在星期一到星期日上都有取值的話,我們可以衍生出6個0-1型啞變數。
因為這里我們更關注周末和非周末對電影票房的影響,而並不關注具體是哪一天,所以我們將其進一步概括成一個變數,即「是否是周末」。
【放映時長和製作預算】
放映時長和製作預算這兩個變數都是取值大於0的數值型變數,我們可以分別檢查它們的取值是否在合理的范圍內,然後直接保留它們的數值信息。
同時,對「製作預算」而言,假設我們這里關心的不是製作預算的具體數值,而是「小成本電影」和「大成本電影」的票房差異,那我們就可以將這個數值型變數進行分箱處理,轉換為一個0-1型的分類變數,即 「是否為小成本電影」。
在決定按照什麼標准來劃分是否為小成本電影時,我們根據之前文獻里的研究結果,將製作預算在100 million以下的電影看成是小成本電影。
上述所有變數的處理過程都可以使用R中最基本的語句(table,rep,which等)完成,由於篇幅限制,小編這里就不列出詳細的code了,大家感興趣的話,可以閱讀狗熊會的「R語千尋」系列(戳這里),相信會在R語言的學習上受到更多啟發。
最後,我們將所有新生成的變數按照電影ID整合到一起,就大功告成啦。
五、總結
最後總結一下,小編在這次內容中向大家介紹了拿到數據後的數據理解和預處理工作,內容雖然不難,但同樣需要我們認真對待。就好像生活一樣,只有踏踏實實走好前面的路,才有可能迎接後面的高潮迭起!
⑼ 有什麼軟體是分析電影營銷數據
可以去貓眼軟體看電影營銷數據。
貓眼專業手機版2022是一款可以為用戶提供大量專業票房分析的軟體,本軟體中的各種票房分析及相關數據分析功能也免費提供給用戶。各種票房數據都是非常專業的展示,用戶觀看的各種扇形數據圖可以一目瞭然地顯示各種電影票房數據的分布。
⑽ 如何利用大數據分析工具分析豆瓣電影
小組功能是豆瓣對用戶分析的利器。兩個用戶加同一個小組,說明他們之間的興趣愛好會很接近。
讀書、音樂、電影等等也是類似。根據這些數據,豆瓣能准確猜測出用戶的各種資料,例如地域、性別、年齡、學歷、學校、喜好等等,只有當有了這些數據的時候,豆瓣電台才成為可能。