미디어 회사와 광고주는 TV 프로그램의 성공 여부를 측정하고, 시청자 규모와 구성이 미디어 구매 목표에 부합하는지 확인하며, 수치가 부족할 경우 개선책을 마련하기 위해 매일 TV 시청률에 의존합니다. 이러한 관점에서 볼 때, TV 시청률은 과거 또는 기껏해야 현재 TV 시청을 측정하는 지표입니다.
하지만 미디어 회사들은 시청률로 미래를 예측하기도 합니다. 시청률은 기대치를 설정하고 한 시즌에서 다음 시즌으로 넘어가는 프로그램 결정에 영향을 미칩니다. 또한 캠페인이 실제로 방영되기 훨씬 전에 광고 요율을 설정하는 데에도 도움이 됩니다. 예를 들어, 미국에서는 TV 네트워크가 1년에 단 한 번(3월에서 5월 사이) 진행하는 이벤트인 '업프론트'에서 해당 시즌의 광고 인벤토리 대부분을 판매합니다. 즉, 현재 TV에 표시되는 광고의 요금은 1년 전에 이미 협상되었을 수 있습니다.
3개월, 6개월 또는 12개월 후 프로그램의 시청률을 예측하기 위해 연구자들은 예측 모델을 사용하고 있습니다. 이러한 모델 중 다수는 거의 또는 전혀 수정하지 않고 수년 동안 사용되어 왔습니다. 이러한 예측 모델은 시청률 예측에 성공했으며 매년 수십억 달러의 광고비를 지원하는 데 큰 역할을 해왔습니다. 하지만 TV 에코시스템의 빠른 변화로 인해 신뢰할 수 있는 모델을 개발하기가 점점 더 어려워지고 있습니다.
최근 미디어 업계에서 일어난 기술 혁신의 목록을 생각해 보세요: 시청자들은 점점 더 노트북, 태블릿, 스마트폰을 사용하여 콘텐츠를 시청하고 있으며, 넷플릭스나 아마존 프라임과 같은 스트리밍 서비스가 대중화되었고, 새로운 TV 연결 디바이스가 대형 스크린 경험을 재편하고 있습니다. 사람들은 시간 이동, 스트리밍, 몰아보기 등 그 어느 때보다 자신이 소비하는 미디어에 대한 통제력이 높아졌습니다. 이들의 행동은 더 복잡할 뿐만 아니라 예측할 수도 없습니다.
닐슨은 사람들이 미디어를 소비하는 방식을 측정하는 많은 데이터 리소스에 액세스할 수 있습니다. 디지털 TV 데이터를 예측 모델의 입력 및 출력으로 추가하기 전에 먼저 기존 TV 데이터를 유일한 소스로 사용하여 기존 TV 시청률 예측 방식을 개선할 수 있는지 검토하고 싶었습니다. 닐슨 전국 시청자 조사 덕분에 우리는 일관된 방법론과 전국을 대표하는 강력한 시청자 패널로 구성된 수년간의 고품질 데이터를 확보할 수 있었습니다.
이렇게 풍부한 데이터를 매우 세부적인 수준에서 활용하여 새로운 예측 모델을 만들었습니다: 과거 라이브+7 시청률과 같은 변수(예 실시간 시청자와 최초 방송 후 최대 7일까지의 시청자를 포함하는 시청률), C3 시청률(최대 3일 후 재생을 포함하는 광고 시청률), HUT(특정 시점에 TV를 사용하는 가구의 비율), 도달 범위, 가구 시청률, 인구통계학적 시청률, 요일, 시간대, 네트워크의 정체성 등이 입력 변수로 사용된 주요 정보이며, 고급 머신러닝 및 통계 알고리즘(릿지 회귀, 랜덤 포레스트 및 그라데이션 부스팅 등)을 활용하여 관련 데이터 관계를 식별했습니다.
고객사와 협력하여 우리가 만든 모델을 테스트하고 검증하기 위해 여러 개념 증명 연구를 수행했습니다. 2~5세 남성 또는 65세 이상 여성과 같은 소규모 인구 집단에 대한 시간 단위로 미래 시청률을 예측하도록 모델을 설계했지만, 이러한 수치를 네트워크 수준까지 확대했습니다. 모델이 실제와 어떻게 비교되는지 파악하기 위해 2분기의 보류 기간을 두어 예측과 고객사의 내부 예측을 실제 시청률 데이터와 비교했습니다. 예를 들어, 2014년 1분기까지의 과거 데이터만을 바탕으로 2015년 2분기 화요일 오후 9시에서 10시 사이에 A 네트워크에서 30~34세 시청자의 평균 라이브+7 시청률을 1.94로 정확하게 예측했습니다. 네트워크 수준에서는 99%의 R-제곱(분산 설명 비율)으로 예측이 매우 정확했지만, 더 세분화된 시간대별 요일 수준이나 일부 소규모 인구 통계 그룹에서는 예측이 더 어려웠습니다. 하지만 시간 블록 수준에서도 우리 모델의 R-제곱은 여전히 95%를 넘었고, 고객이 그 이전까지 사용하던 모델보다 훨씬 뛰어난 성능을 보였습니다. 2,000개 이상의 일별 예측에서 예측 정확도의 두 가지 주요 척도인 R-제곱은 41%, 가중 절대 백분율 오차(WAPE)는 16% 더 정확했습니다.
이러한 개념 증명 모델과 수행한 테스트에 대한 자세한 내용은 곧 발표될 백서에서 공유할 예정입니다. 이 프로젝트의 핵심은 크고 노이즈가 많은 행동 데이터를 예측 모델링 기능으로 변환하고 이를 매우 효율적인(그리고 자동화된) 방식으로 수행할 수 있었다는 점입니다. 하지만 시청률의 소수점 하나하나가 엄청난 재정적 영향을 미치기 때문에 새로운 입력 변수(예: 광고 지출 또는 프로그램별 데이터)를 추가하고, 프로그램 패키지 및 채널 라인업의 변화에 빠르게 적응하는 방법을 구축하고, 새로운 형태의 회귀 및 분류 알고리즘을 테스트하거나 유망한 여러 모델을 하나로 결합하는 등 계속해서 한계를 뛰어넘어야 합니다.
이 프로젝트는 전통적인 TV에 초점을 맞추었지만, 디지털 데이터의 영향이 과거 데이터의 TV 시청률 변화에 반영되어 예측에도 반영되었다는 점이 흥미롭습니다. 그러나 이는 누적 효과를 간접적으로 측정한 것으로, 예를 들어 오버더톱 시청이나 스마트폰 앱을 통한 시청에 초점을 맞춘 모델을 대체할 수는 없습니다. 위에 설명한 다음 단계 외에도 디지털 데이터의 활용은 향후 예측을 개선하는 데 중요한 요소가 될 것입니다.
결국, 우리는 각 고객이 프로그램에 대해 잘 알고 있을 뿐만 아니라 향후 이러한 프로그램이 어떻게 받아들여질지에 대한 강한 직관력을 가지고 있다는 사실을 인식해야 합니다. 예측 모델을 구성할 때 이러한 '인간적 요소'를 무시해서는 안 되며, 특히 시장의 중요하고 예측할 수 없는 변화에 대응할 때 유용할 수 있습니다. 풍부한 데이터, 강력한 머신러닝 알고리즘, 도메인 전문 지식을 통합하는 시스템은 어느 하나만으로는 달성할 수 없는 더 나은 결과를 얻을 수 있습니다.