Google for Developers Korea Blog: 20세기 폭스에서 ML을 사용해 영화 관람객을 예측하는 방법

Google for Developers Korea Blog

한국의 개발자들을 위한 Google for Developers 국문 블로그입니다.

20세기 폭스에서 ML을 사용해 영화 관람객을 예측하는 방법

2018년 11월 29일 목요일

.post-body span { white-space: normal !important; } <원문은 이곳에서 확인하실 수 있고 리뷰에는 강재욱(Machine Learning GDE) 님이 도움주셨습니다.>
영화 산업에서의 성공은 영화 팬을 끌어들이는 스튜디오의 능력에 달렸지만, 때로는 이것은 말처럼 쉽지 않은 일입니다. 그 이유는 영화 팬들은 관심사와 취향을 저마다 다양하게 가지는 그룹이기 때문입니다. 역사적으로, 영화 스튜디오는 특정 영화 시나리오에 투자 결정을 할 때 경험에 대한 의존도가 높았습니다. 하지만 이는 자칫 막대한 투자 리스크로 이어질 수 있으며, 특히 새롭게 등장한 원작에 투자할 때는 더욱 그러합니다. 이러한 스토리와 관람객을 매칭하는 반복적이고 복잡한 투자 프로세스를 20세기 폭스(20th Century Fox)의 사장이자 최고 데이터 전략가 겸 미디어 책임자인 Julie Rieger와 데이터 사이언스 SVP인 Miguel Campo-Rembado가 데이터를 이용하여 명확히 해보기로 결심했습니다.
머신러닝에 적합한 데이터 문제 영화 관람객의 시장 세분화에 대한 이해는 영화 스튜디오의 핵심 업무 중 하나입니다. 영화 스튜디오는 고객군을 정밀하게 분류하고 앞으로 만들 영화의 흥행을 예측하기 위해 오랫동안 고수준 데이터 프로세스에 투자해왔습니다. 하지만 기술 및 제도적 장벽 때문에 고객 레벨은 말할 것도 없고 세그먼트 레벨의 세부적인 예측도 여전히 난해한 영역으로 머물러 있었습니다. Miguel과 그가 이끄는 팀은 Google Cloud와 같은 파트너와 협력함으로써 이러한 장벽 중 일부를 걷어내기 위한 시도를 하였습니다. 이와 함께, 우리는 영화 팬에 대한 이해도를 높이기 위해 세분화된 고객 데이터와 영화 시나리오를 바탕으로 훈련된 사내 딥 러닝 모델을 개발했습니다. 이것은 개인정보가 철저히 보호되는 데이터 제휴 관계를 맺고, 다양한 유형의 영화에 대한 선호도 패턴을 파악하기 위한 것이었습니다. 18개월이 흐르면서 이러한 모델은 이제 중요한 비즈니스 결정을 할 때 당연히 고려하는 요소가 되었습니다. 이 딥러닝 모델은 영화의 톤, 핵심 관람객 및 확장 관람객과의 어피니티, 영화의 잠재적 재무 성과를 평가하기 위한 가장 객관적이고 데이터 기반이며 효과적인 지표 중 하나를 제공합니다.
이제 딥러닝 모델에 대해 더 자세히 알아봅시다! 대본텍스트 분석은 영화 관람객을 유인할 수 있는 추가적인 역동적 기제 없이 스토리의 주요 골격만 제시하였기 때문에 많은 정보를 얻기 어려웠습니다. 팀에서는 영화의 전체적 마케팅 캠페인에 있어 가장 중심적이고 단 하나의 요소로 남아 있는 영화 예고편을 연구하기 위해 첨단 컴퓨터 비전 기술을 사용할 방법이 있을지 궁금해했습니다. 신작 영화의 예고편 공개는 흥행 성공 여부를 가늠하는 데 도움이 될 수 있는 무척 기대되는 이벤트이므로, 회사로서는 예고편이 영화 팬의 호기심과 흥미를 제대로 돋우도록 해야합니다. 이 목표를 달성하기 위해, 20세기 폭스 데이터 사이언스 팀은 Google의 Advanced Solutions Lab과 손잡고 영화 예고편의 밀도 높은 표현을 학습하여 특정 예고편의 미래 영화 관람객을 예측하도록 도와주는 컴퓨터 비전 도구인 Merlin Video를 만들었습니다.
데이터 파이프라인 디자인 팀에서 진행한 첫 단계는 이 도구를 뒷받침할 기술을 파악하는 작업이었습니다. TensorFlow 딥 러닝 프레임워크와 함께 Cloud Machine Learning Engine(Cloud ML Engine)을 선택해야 한다는 점은 분명했습니다. 관리형 서비스인 Cloud ML Engine은 모든 리소스 프로비저닝과 모니터링을 자동으로 처리해 주므로, 팀은 인프라 구성보다는 Merlin을 위한 딥 러닝 모델의 빌드에 집중할 수 있었습니다. Merlin은 Cloud Dataflow와도 통합되므로 Data Studio에서 완벽하게 보고서를 생성할 수 있습니다. 따라서 팀은 프로세스의 작동 방식을 더 깊이 이해할 수 있었습니다. 시스템의 일상적인 유지 관리(주로 데이터의 내재화)는 단순하고도 수월하여, 다른 사업 부문의 엔지니어가 개입할 필요 없이 데이터 사이언티스트가 전적으로 처리할 수 있습니다.
Architecture flow diagram for Merlin.jpg

Architecture flow diagram for Merlin.jpg

Merlin의 아키텍처 흐름도
팀은 알맞은 인프라를 갖춰 놓고 공개 YouTube 동영상 데이터세트인 YouTube 8M에 대한 분석 작업을 시작했습니다. 이 데이터세트는 Google에서 미리 훈련한 모델을 포함하는데, 이 모델은 색상, 조명, 수많은 유형의 표정, 수천 가지의 물체, 여러 가지 풍경과 같은 동영상의 구체적 특징을 분석할 수 있습니다. 위 그림에서 보듯이, Merlin 아키텍처에서 첫 단계는 예고편에서 영화 선호도를 가장 정확히 예측할 수 있게 해주는 요소 결정에 대한 전처리로서, 이는 미리 정의된 특성을 파싱하는 작업입니다. 예를 들어 이전에 남성 액션 주연배우가 등장하는 영화를 주로 본 영화 팬이라면 역시 다음에도 비슷한 류의 영화를 볼 가능성이 더 높지 않을까요? 휴 잭맨(Hugh Jackman)이 울버린(Wolverine)으로 나온 20세기 폭스의 액션 영화 로건(Logan)을 심층적으로 다루어봅시다. 아래에서 이 영화의 공식 예고편 중 12초 부분의 스냅샷을 볼 수 있습니다. Logan official trailer, second 12.png

Logan official trailer, second 12.png

로건 공식 예고편, 12초
이 스냅샷에 대해 Merlin은 'facial_hair, beard, screenshot, chin, human, film'(얼굴_머리카락, 턱수염, 스크린샷, 턱, 사람, 영화)이라는 라벨을 반환합니다. Merlin은 전체 예고편을 초 단위로 분석한 후, 로건에 대한 최상위 라벨을 다음과 같이 표시합니다.
Fox’s tool.png

Fox’s tool.png

Fox의 도구 Merlin에서 캡처한 스크린샷: 태그 지정된 라벨(빈도를 내림차순으로 정렬)
20세기 폭스의 데이터 사이언스 팀은 로건의 라벨 분석이 할당된 후 다른 영화 예고편에서 이전에 생성된 라벨과 새로 분석한 결과를 비교하여 유사한 영화를 식별하고 싶었습니다. 아마도 로건의 관람객과 다른 액션 영화의 관람객 사이에 겹치는 부분이 있겠지만, 여기서의 도전과제는 두 가지 입니다.첫 번째 도전 과제는 예고편에서 라벨의 시간적 위치입니다. 즉, 예고편에서 특정 라벨이 발생하는 시점이 중요하다는 의미입니다. 두 번째 도전 과제는 이 데이터의 높은 차원성입니다. 특정 영화의 예고편에는 관람객의 관심사를 예측할 수 있는 수많은 요소가 있을 수 있으며, Merlin은 이 모든 요소를 동시에 분석하는 것이 목표입니다. Cloud ML Engine은 탄력성이 뛰어나므로, 데이터 사이언스 팀은 딥 러닝 모델의 무결성을 해치지 않고 신속히 반복 및 테스트를 수행할 수 있었습니다. 그 덕분에 Merlin은 몇 개월이나 몇 년이 아니라 단 며칠 만에 바로 프로덕션 단계로 진행 가능한 도구가 되었습니다.
특히, 분석 파이프라인은 이러한 개별 컴포넌트(라벨)를 데이터 사이언스 팀이 개발한 커스텀 신경망으로 입력합니다. 이 맞춤 모델은 영화 예고편에서 라벨의 시간적 시퀀스를 학습합니다. 시간적 시퀀스(예: 어떤 대상에 대한 롱 테이크 대비 단속적인 숏 테이크)는 영화 유형, 영화 플롯, 주연배우의 역할, 영화 제작자의 영화 촬영술 관련 선택 사항에 대한 정보를 전달할 수 있습니다. 시퀀스 분석 데이터를 과거 고객 데이터와 결합하여 사용하면 고객의 행동을 예측할 수 있습니다. 분석 파이프라인은 거리 기반 협업 필터링(CF, collaborative filtering) 모델 과 로지스틱 회기 계층도 포함합니다. 이것은 모든 모델 출력을 함께 결합하여 영화 관람 확률을 생성합니다. 이 모델은 end-to-end로 훈련되며, 로지스틱 회귀의 손실함수 값이 훈련 가능한 모든 컴포넌트로 역전파 됩니다(가중치).
Merlin의 데이터 파이프라인은 새로 공개되는 예고편을 반영하기 위해 매주 새로 고쳐집니다. 파이프라인의 구조는 아래 다이어그램에 나와 있습니다.
pipeline’s structure.png

pipeline’s structure.png

데이터 사이언스 팀에서는 최종 단계를 위해 BigQuery와 BigQueryML을 사용하여 Merlin이 수행한 수백만의 고객 예측 데이터를 다른 데이터 소스와 병합하여 유용한 보고서를 만들고 마케팅 캠페인을 위한 미디어 계획의 원형을 빠르게 작성합니다. 모델의 유효성 검사 다시 로건의 사례로 돌아가 '터프한' 남성 주연배우가 등장하는 액션 영화를 본 적 있는 영화 팬이 로건도 볼 가능성이 높을 것이라는 우리의 직관을 데이터로 확인 할 수 있을지 살펴봅시다. 우리는 영화 개봉 후에 특정 관람객이 이전에 본 영화에 관한 데이터를 처리할 수 있습니다. 아래 표에는 실제 영화 관람객 수 기준 상위 20개 영화(Comp ACT)와 예측 관람객 수 기준 상위 20개 영화(Comp PRED)를 비교한 결과가 나와 있습니다. 실제 영화 중 최상위 5개 영화(아래에서 녹색으로 표시)에 초점을 맞춰 이들 영화가 예측 열에도 나와 있는지 확인해봅시다. 실제 최상위 5개 영화가 전부 예측 결과에 포함되어 있는 걸 알 수 있습니다.
Results output.png

Results output.png

Merlin Video에서 얻은 실제 관람객 대비 예측 관람객의 분석 결과
표면적으로는 우리의 직관이 옳았습니다. 로건을 본 관람객 중 가장 큰 비중을 차지하는 계층은 실제로는 슈퍼히어로(우리가 이미 알고 있었던 부분)와 '터프한 남성 액션 주연배우'(우리가 확실히 알지는 못했던 부분)의 조합이었습니다. 매그니피센트 7(위에서 파란색으로 표시), 존 윅(위에서 녹색으로 표시), 터미네이터 제니시스(위에서 파란색으로 표시)처럼 예측 결과에서 '터프한 남성 액션 주연배우'가 등장하는 영화로 꼽힌 영화들은 실제 관람객 수를 기준으로 한 20대 영화 목록에도 포함되었습니다. 이러한 결과는 핵심 슈퍼히어로 관람객에 새로운 관람객이 '추가'되는 것이므로 윈-윈의 결과로서, 핵심 관람객을 뛰어넘어 영화의 타깃 관람객 범위를 확장하는 데 활용할 수 있습니다.
이러한 딥러닝 기반 도구가 20세기 폭스의 마케팅 및 데이터 팀에 미치는 영향은 상당합니다. 개괄적인 상황만 파악할 수 있는 상위 레벨 관람객 설문조사 결과에만 의존하는 대신, 이제는 더욱 정밀한 측정 기준을 배포하고 적용하여 고객의 관람 의향을 확인할 수 있기 때문입니다. 이러한 통계는 20세기 폭스가 의존해왔던 이전의 분석 기법에 따른 분석 결과의 상세도보다 최소한 두 자릿수 이상 더 상세합니다. 20세기 폭스는 2017년에 위대한 쇼맨을 개봉한 이후로 이 도구를 사용해오고 있으며, 앞으로도 계속 사용해 최신 개봉 영화에 대한 정보를 제공할 것입니다. 또한 홈 엔터테인먼트 소스에서 수집한 구매 및 대여 데이터도 통합하여 잠재고객과 그들이 시청한 타이틀 사이의더 강력한 상관관계도 식별하고 있습니다.
마지막으로, 데이터가 더욱 세분화되어, 팀에서는 실제 흥행 성적과 내부 예측 결과를 비교 검토하여 어떤 세그먼트 레벨의 예측이 현실을 더 정확히 반영하는지 확인할 수 있습니다. Miguel이 이끄는 데이터 사이언스 팀은 현재 매주 월요일 아침에 스코어카드를 작성해 사내 다른 조직으로 이메일을 보내줍니다.

Merlin의 기초를 이루는 연구에 대해 더 자세히 알아보고 싶으면 여기에서 연구 논문 원본을 확인하실 수 있습니다.

Contents

ML/Tensorflow
Android
Flutter
Web/Chrome
Cloud
Google Play
Community
Game
Firebase

검색

Tag

Archive

2025
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2024
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2023
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2022
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2021
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2020
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2019
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2018
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2017
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2016
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2015
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2014
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2013
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2012
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 3월
- 2월
- 1월

2011
- 12월
- 11월

Feed

Google
Privacy
Terms