[Netflix] 影集背後的資料科學 — Domain Knowledge 的重要性

[Netflix] 影集背後的資料科學 — Domain Knowledge 的重要性

[Netflix] 影集背後的資料科學 — Domain Knowledge 的重要性

Netflix 知名自製影集⟪紙牌屋⟫

影視娛樂產業總是令人好奇不已,這篇導讀源自底下 Netflix 發佈的技術文章,講述 Netflix 在影集製作的過程中,如何運用資料科學,讓商業決策更正確、拍攝規劃更順利:

Data Science and the Art of Producing Entertainment at Netflix

原文包含製作影集的四大步驟,看看資料科學家到底貢獻了甚麼:

1. 前期製作(這篇導讀的重點)

2. 現場拍攝

3. 後製

4. 在地化及品管

前期製作

想像一下,Netflix 開拍紙牌屋前,製作團隊正在決定去哪裡拍攝成本較低?他們該不該去馬里蘭州?還是其他地方?要找一千個臨時演員還是用視覺特效?拍攝期間團隊一天要工作 10 小時還是 12 小時?這些事情多如牛毛,但每一個決定都將影響製作預算、時程、乃至整個作品的好壞。

過去這些決定都是依賴人的經驗與直覺,如果改用資料模型來分析會變得怎麼樣呢?

控制製作成本

Netflix 建構一個模型(如下圖),探討「去 Atlanta 拍攝的所有要素」對成本的影響,跟「去 New Orleans 拍攝的所有要素」比較起來,誰的成本可以控制在預算之內?

出自 Netflix 技術部落格

把這個模型想成

製作成本=F(X, Y, Z, ….)=F(器材租用, 人力調度, …)

Netflix 運用模型的難題在於,選擇的拍攝地點歷史資料常常不夠多(即原文所述 data sparsity),或是地點影響成本的要素太龐雜。於是 Netflix 選擇建立一個參數比較少的小模型,用領域專家的經驗決定 prior(後面會解釋,可以先想成參數前面的係數),而不是建立有幾千個參數的大模型。

你可能覺得很奇怪,我們不是才說不要依賴人的經驗及直覺,改用資料來分析嗎?

請大家回想一下高中學過的貝氏定理

貝氏定理的精神在於,每當一個新事件 B 發生,情況 A 發生的機率都會有所改變(強力推薦大家看一下這篇泛科學,寫的相當清楚)。

情人的加分扣分,請遵守貝氏定理 – PanSci 泛科學

以泛科學這篇的舉例,P(A|B)的意思就是:當「男朋友送你一朵花」(新事件 B 發生了),「他可能是好男人」(情況 A )的機率是多少。

對 Netflix 來說,P(A|B)的意思是:當「在 Atlanta 拍攝的相關資料(data)」進來後,在 Atlanta 比較好的機率是多少。

根據貝氏定理的公式,要算出 P(A|B) 還需要知道 P(A),P(A) 就是上文說的 prior,為新事件 B 還沒發生時,情況 A 發生的機率。既然是還沒發生前的事,代表它取決於過去的資訊,所以 Netflix 需要倚重執行團隊過去以來的經驗,來決定 P(A) 要設多少。

之後再隨著新的事件、新的 data 產生,去修正情況 A 發生的機率。可以說是「先驗資訊(過去的累積)+實驗結果(data)」,共同決定了最後的結果。有新實驗結果(data)出來的話,最後的結果又會跟著改變。

由此可知,需要經由過去事件及經驗來決定 prior P(A),所以在資料分析領域 domain knowledge 便顯得很有價值。

所以 Netflix 雖然在各個拍攝地點的資料很少,但他們倚重影視製作的經驗,讓模型的準確度提升,製作團隊就可以用模型來預估各個地點、各種情況下的製作成本。

喜歡這類型導讀文章的話,拍拍綠色小手跟我擊掌吧!👏


[Netflix] 影集背後的資料科學 — Domain Knowledge 的重要性 was originally published in YiYi Network on Medium, where people are continuing the conversation by highlighting and responding to this story.

“[Netflix] 影集背後的資料科學 — Domain Knowledge 的重要性” Posted first on ” Data Science on Medium “
Author: Chloé

Author: Pawan Kumar

Leave a Reply

Close Menu
%d bloggers like this:
Skip to toolbar