㈠ 很多電影在上映之前就大喊著票房預測是多少多少,難道都是信口胡說出來的嗎他們有沒有什麼計算方法
胡說肯定算不上,但也不見得都准確。既然是預測就有對有錯。他那麼一說你也就那麼一聽,如果自己說的再不信誓旦旦點兒別人哪能信呢?
一般來說根據影片的投資、劇本的質量、導演的名氣、主角的號召力、特效團隊的實力可以大概估計出一個票房數量,當然上映檔期也要算好,如果遇到其他大片的圍攻就壞了。
比方說《金陵十三釵》投資6億,如果喊預計票房5億那不是自己打自己耳光嗎,所以就算明知不行該喊的話也得喊出去,反正又不需要負責。
㈡ 學IT的,寫了一個電影推薦系統,但是為什麼評分預測值大於五
全文以「預測電影評分」例子展開
r(i,j)=0則表明user_j沒有對movie_i 沒有評分,
推薦系統要做的就是通過預測user_j對這些movie {i|r(i,j)=0}的評分來給user_j 推薦其可能會喜歡的電影<預測評分較高的movie>
=======================================二、基於內容的推薦=======================================
對每個movie_i引入特徵x(i)=(x1, x2),這種特徵可能表明user對movie類型的偏好:浪漫or動作等
對於每個user引入一個參數theta,然後對評分矩陣的每列(對應一個user)做線性回歸,數據是{ (x(i), y(i,j)) |r(i,j)=1,for some j all i}
像機器學習一樣,x(i)添加個1變數x(i)=(1, x1, x2)
那麼對於未評分的movie_t,我們可以使用線性回歸訓練的參數theta與對應特徵x(t)做內積來得到其預測評分
對每個用戶都訓練一個參數theta_j,優化模型如下:
優化演算法:注意正則項是不約束x(i)=(1, x1, x2)中1對應的參數theta的第一項theta0,所以k=0與k=1,2分別對待
=======================================三、協同過濾=======================================
現在換個角度:如果知道theta for all user j,如何來預測x(i) = (x1, x2) all i
仍然可以使用線性回歸,為訓練每個x(i),需要評分矩陣的第i行數據{ (x(i), y(i,j)) |r(i,j)=1,for some i all j}
theta_j = (0, theta1, theta2) ;theta1=5說明user_j喜歡romance類movie, theta2=5說明user_j喜歡action類movie,只能有一個等於5哦,
我覺得也可以是:theta_j = (0, 4, 1) ;喜歡romance 4 action 1.
對應的優化:
協同過濾:交替優化theta與x
=========================================四、協同過濾演算法=======================================
優化:
優化:注意去掉了theta和x的添加項
=========================================五、實現細節補充=======================================
實現細節:
如果有user沒有對任何電影評分或者所有評分的電影都是0分,那麼所學習到的參數是零向量,
則預測都是0值,這是不合理的。通過 將評分矩陣減去其行均值再進行線性回歸來「避免」這種情況
=========================================六、一點思考==========================================
協同過濾那塊,同時優化theta、x,這樣得到的theta、x還有特定的意義<比如:x是否還表徵對影視類型的喜愛與否>沒有?
回歸中,在x數據上不添加1-feature是不是因為後來引入的平均值化;如果不是,那會對結果有什麼影響?
用x-feature來表徵一個movie,x-feature的各分量的可解釋性;應該會有一部分user應為演員的緣故有一些"偏愛"。
這里,講的"基於內容的推薦"與"協同過濾"跟以前對這兩個詞的認識/所指內容不同,查清楚、搞明白。
這周還會再更一篇關於此節課的演算法實現,會對上述部分問題做出回答。
㈢ 已知某網站用戶對電影評分數據(滿分5分)。應用KNN演算法預測哪位用戶適合給小張推薦電影
已知某網站用戶對電影評分數據(滿分5分)。應用KNN演算法預測哪位用戶適合給小張推薦電影?
不要把手機關機
㈣ 閱讀、電影和音樂的推薦演算法,哪一個更難做
「閱讀、電影和音樂的推薦演算法,哪一個更難做?為什麼?」關於這一問題,小編從諸多網友的回復中為你篩選了最用心、最高贊的回答!快來看看吧~
來看看網名為「幸運的ZLT0502」的網友是怎麼說的:
電影---音樂----閱讀!從我的經驗來看,閱讀是最難做到的,其次是音樂,最簡單的就是電影。當然,是在有很多數據的前提下。從幾個領域的特點來看:1.電影的item數量相對較少,好的電影有很長的生命周期,加上電影社區的用戶行為,視頻網站或預訂網站,都很好獲得,所以特別適合合作過濾。即使這不是一部大熱門電影,你也可以根據導演、類型、明星等製作內容。這些都是結構化的信息,所以沒有難度。音樂的item比電影要多一些,生命周期也非常不同,但它也可以用於基於用戶行為的協同過濾。該演算法如何表達和更新用戶的興趣?如何根據興趣標簽計算推薦結果?至少我沒有看到特別成功的推薦閱讀應用程序。演算法上,都各有難度,但閱讀類的,由於分類太多,在演算法上自然要更加復雜。
來看看網名為「派網友」的網友是怎麼說的:
個人認為無論是基於用戶行為(協同過濾),還是基於內容相似度的推薦演算法,難度從高到底都依次是:音樂-閱讀-電影。
對於ID為「樓船吹笛雨瀟瀟」網友的精彩回答,大家紛紛點贊支持,他是這么說的:
我覺得是各有所難,並不能說哪個難,哪個容易。推薦的成功率:公共決策對推薦的影響:判斷價值的建議:三者各有難度,但是個人在長期的習慣中可以對其中一種或者多種情景中加以選擇和實踐,但這也不是一蹴而就的事情,慢慢來吧。
你贊同哪位網友的觀點呢?
㈤ 電影票房預測系統的電影票房如何預測
早在80年代,美國票房收入預測的先驅BarryLitman對美國80年代近700部電影進行分析推出票房收入預測模型。該系統對之後美國電影投資界產生了顛覆性的影響。電影票房預測系統能分析預測不同種類電影的票房價值,已經成為國際電影產業投融資的重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。

㈥ 推薦演算法有哪些
推薦演算法大致可以分為三類:基於內容的推薦演算法、協同過濾推薦演算法和基於知識的推薦演算法。 基於內容的推薦演算法,原理是用戶喜歡和自己關注過的Item在內容上類似的Item,比如你看了哈利波特I,基於內容的推薦演算法發現哈利波特II-VI,與你以前觀看的在內容上面(共有很多關鍵詞)有很大關聯性,就把後者推薦給你,這種方法可以避免Item的冷啟動問題(冷啟動:如果一個Item從沒有被關注過,其他推薦演算法則很少會去推薦,但是基於內容的推薦演算法可以分析Item之間的關系,實現推薦),弊端在於推薦的Item可能會重復,典型的就是新聞推薦,如果你看了一則關於MH370的新聞,很可能推薦的新聞和你瀏覽過的,內容一致;另外一個弊端則是對於一些多媒體的推薦(比如音樂、電影、圖片等)由於很難提內容特徵,則很難進行推薦,一種解決方式則是人工給這些Item打標簽。 協同過濾演算法,原理是用戶喜歡那些具有相似興趣的用戶喜歡過的商品,比如你的朋友喜歡電影哈利波特I,那麼就會推薦給你,這是最簡單的基於用戶的協同過濾演算法(user-based collaboratIve filtering),還有一種是基於Item的協同過濾演算法(item-based collaborative filtering),這兩種方法都是將用戶的所有數據讀入到內存中進行運算的,因此成為Memory-based Collaborative Filtering,另一種則是Model-based collaborative filtering,包括Aspect Model,pLSA,LDA,聚類,SVD,Matrix Factorization等,這種方法訓練過程比較長,但是訓練完成後,推薦過程比較快。 最後一種方法是基於知識的推薦演算法,也有人將這種方法歸為基於內容的推薦,這種方法比較典型的是構建領域本體,或者是建立一定的規則,進行推薦。 混合推薦演算法,則會融合以上方法,以加權或者串聯、並聯等方式盡心融合。 當然,推薦系統還包括很多方法,其實機器學習或者數據挖掘裡面的方法,很多都可以應用在推薦系統中,比如說LR、GBDT、RF(這三種方法在一些電商推薦裡面經常用到),社交網路裡面的圖結構等,都可以說是推薦方法。
㈦ 奈飛公司的創新的大數據推薦演算法
第一個Netflix大獎成功的解決了一個巨大的挑戰,為提供了50個以上評級的觀眾准確的預測他們的口味。下一個百萬大獎目標是,為那些不經常做影片評級或者根本不做評級的顧客推薦影片,要求使用一些隱藏著觀眾口味的地理數據和行為數據來進行預測。同樣,獲勝者需要公開他們的演算法。如果能解決這個問題,Netflix就能夠很快開始向新客戶推薦影片,而不需要等待客戶提供大量的評級數據後才能做出推薦。
新的比賽用數據集有1億條數據,包括評級數據,顧客年齡,性別,居住地區郵編,和以前觀看過的影片。所有的數據都是匿名的,沒有辦法關聯到netflix的任何一個顧客。
與第一個大獎賽不同,這次比賽沒有設定比賽目標。50萬美金首先獎勵給6個月內取得領先的團隊,另外50萬美金獎勵給18個月後取得領先的團隊。
推薦引擎是Netflix公司的一個關鍵服務,1千多萬顧客都能在一個個性化網頁上對影片做出1-5的評級。Netflix將這些評級放在一個巨大的數據集里,該數據集容量超過了30億條。Netflix使用推薦演算法和軟體來標識具有相似品味的觀眾對影片可能做出的評級。兩年來,Netflix 已經使用參賽選手的方法提高了影片推薦的效率,這已經得到了很多影片評論家和用戶的好評。
Strands推薦引擎的首席科學家裡克·漢加特納博士寫道:「在短期內,搜索引擎將會越來越多地加入簡單的推薦技術,以處理接近的查詢詞(例如,「您要找的是這個,根據類似查詢/其他人的搜索,你可能要尋找的是這個。」)但從長期來說,而比起搜索行業和搜索技術,推薦技術會更加地無孔不入。」

㈧ 電影票房預測系統的BRP(電影票房量化分析系統)的三大特點
BRP系統每周總票房的范圍預測法通過自適應分類,可根據電影知識庫中各周電影票房分布進行票房等級分類,使每周預測的票房范圍更為精確,縮小預測范圍。同時,其最終估值范圍通過波動性提示並衡量了相關風險的存在。這對於投資製片方進行有針對性的風險度量、風險管理及防範都具有重要意義。由於電影產業影響票房業績的變數眾多,蘊含復雜的系統及非系統風險,BRP系統能將之定量化並確定總體風險收益規模,無論對於即期電影發行,還是後續衍生開發,都具有重要的指導性。

㈨ 怎樣預測票房
票房預測:需求與現實
從1896年西洋影戲傳入上海徐園,到1905年中國拍攝首部國產電影《定軍山》,再到2013年全國電影票房突破200億
大關,(4)有著百餘年歷史的中國電影產業,在近幾年呈現出飛躍式發展的態勢,無論是影片質量、院線建設還是投資規模都有了長足的發展。與此同時,隨著
「大數據」時代的到來,電影觀影群體、觀影偏好與心理、電影信息傳播和獲取方式也都在發生著深刻的變化。
毋庸置疑,多樣化資本的加入是中國電影不可或缺的發展引擎,然而,電影行業以投資回報率難以預測著稱,大投入未必有大產出,票房預測工具的缺失使得投資者
無法有效對沖投資風險,華人著名導演吳宇森的《風語者》就拖累了米高梅公司最終走向破產。因此製作與發行公司不得不考慮所有對票房有影響的因素:辣媽李小
璐對《私人訂制》票房貢獻幾何;《風暴》票房為何遠低於其金牌製片人江志強預期;被吐槽「爛片」的《富山春居圖》和《小時代》緣何票房卻一路走紅;成龍大
叔的《警察故事2013》有無必要拍成3D;《泰囧》的「報復性」觀影效應能否復現……這一切的一切其實都可以從「大數據」中找到答案。因為網路上的每一
次瀏覽、查詢乃至點擊所匯聚成的群體智慧都「蝴蝶效應」般地影響著電影的最終票房。
2013年Google在一份名為《Quantifying Movie Magic with Google Search》(5)
的白皮書中公布了其電影票房預測模型,該模型主要利用搜索、廣告點擊數據以及院線排片來預測票房,Google宣布其模型預測票房與真實票房的吻合程度達
到了94%,但並未見其公開對未上映電影的預測結果。
搜狗公司藉助「深思」系統,建立了更為復雜的模型,用於預測國內電影票房,並在新浪微博上提前發布了2013年12月國內上映電影的首周票房預測結果。很高興到目前為止預測結果與真實數據非常接近,同時,我們的模型還可以用於對影響票房的因素進行定量分析。
搜索查詢量的奧秘
搜狗搜索每天都響應上億次的搜索請求,查詢詞的分布和變化趨勢能夠很好的反映出中國網民的興趣點和關注指向。與Google的研究類似,我們也發現,電影
上映前相關查詢詞的搜索次數與票房收入有著很強的關聯性。這一點很好理解,用戶的主動搜索行為體現了用戶對這部電影的潛在興趣。
我們選取了2013年1-11月國內上映的180部電影的票房和上映前的搜索量數據作為訓練集,用於訓練一個基礎的線性回歸模型。實驗發現,單純利用搜索
量訓練得到的模型,預測得到的首周票房與真實票房的相關度R方值僅為68%,這與Google僅用搜索數據得到的結果70%很接近。(註:R方值取值為0
至1,值越大表示模型預測效果越好),這個結果也說明無論在中國還是美國,用戶的搜索行為是很相似的。
用搜索量來進行預測票房是一個好的開始,但是准確度還遠遠不夠。同時很多搜索詞還存在歧義的情況,比如《生化危機》,既是電影也是游戲,混在一起會造成票
房預測值偏高。進一步研究發現,游戲意圖的查詢請求量較為平穩,但電影意圖的查詢請求在上映前則有一個高峰,也可以通過用戶點擊的URL來進一步確認用戶
的搜索意圖。因此模型需要再引入查詢量的變化趨勢和用戶點擊的分布情況。修正後的模型可以達到74%的准確度,這時模型已經可以對電影票房進行一個粗略的
估計。
社交媒體:用戶的情感分析
社交媒體數據對票房預測也會有一定幫助。假設你是某個明星的粉絲,打算去看他主演的電影,那麼你很可能會提前轉發該電影的相關微博給你的朋友。國外已經有
很多預測項目都是在針對Twitter數據做研究,這里我們主要採用國內部分微博網站的數據來進行預測。通過自然語言理解技術,分析出用戶對未上映影片的
情感傾向,從而轉換為用戶的觀影需求。進一步可以考慮的因素包括微博轉發深度、評論活躍程度,以及相關微博數量隨電影上映日期臨近的變化趨勢,這些數據都
可以被有效的提煉為特徵並加入到模型中。
微博數據的加入使得准確率超過了80%。

結語
預測專家納特·西爾弗在《信號與雜訊:大數據時代預測的科學與藝術》一書中提到,大數據時代的預測更容易失敗,大部分失敗的預測都源於一種盲目的自信,用精確的預測來冒充准確的預測。
對此我們有著清醒的認識,目前的票房預測模型還有若干需要改進的方向。首先,目前模型的主要思想是通過電影上映前的用戶關注度來推算首周票房,這實際上沒
有考慮電影上映後的口碑對票房的影響;其次,模型較為依賴歷史數據,可能難以識別一些上映後脫穎而出的小成本「黑馬」電影;再次,目前的技術只能提前10
天預報出首周票房,還可以更加超前。
總體而言,「深思」系統代表了搜狗公司在社會化預測方面一些新的嘗試。我們試著從繁雜的海量數據中篩選出真正的信號,努力穿越不確定性的迷霧,區分出未來
圖景的哪些部分可以預測,哪些不可預測。通向這個未來的道路還在探索之中,但目前工作已經取得了一些不錯的進展,並給予了我們更大的信心。