Przejdź do treści
02_Elements/Icons/ArrowLeft Powrót do Insight
Spostrzeżenia > Media

Wykorzystanie uczenia maszynowego do przewidywania przyszłych wyników oglądalności telewizji w zmieniającym się krajobrazie medialnym

5 minut czytania | Jingsong Cui, wiceprezes, i Scott Sereday, kierownik, Data Science, Nielsen | październik 2016 r.

Firmy medialne i reklamodawcy polegają na ratingach telewizyjnych każdego dnia, aby zmierzyć sukces programów telewizyjnych, zweryfikować, czy wielkość i skład widowni są zgodne z celami zakupu mediów, a także naprawić sytuację w przypadku, gdy liczby nie są wystarczające. Z tego punktu widzenia, ratingi telewizyjne są metrykami, które mierzą przeszłość, lub w najlepszym wypadku teraźniejszość, oglądania telewizji.

Jednak firmy medialne wykorzystują ratingi również do przewidywania przyszłości. Ratingi wyznaczają oczekiwania i wpływają na decyzje programowe z sezonu na sezon. Pomagają one również ustalić stawki reklamowe z dużym wyprzedzeniem, kiedy kampania może rzeczywiście emitować. W Stanach Zjednoczonych, na przykład, sieci telewizyjne sprzedają większość swoich zasobów reklamowych na dany sezon podczas "upfront", wydarzenia, które organizują tylko raz w roku (między marcem a majem). Oznacza to, że stawka za reklamy, które widzisz w telewizji dzisiaj może być negocjowane więcej niż rok temu.

Aby przewidzieć, jaka będzie oglądalność programu za trzy, sześć lub 12 miesięcy, badacze używają modeli prognostycznych. Wiele z tych modeli było używanych przez lata z niewielkimi lub żadnymi modyfikacjami. Sprawdzają się one w przewidywaniu oglądalności i wykonują świetną robotę, wspierając wymianę miliardów dolarów reklamowych każdego roku. Ale szybkie zmiany w ekosystemie telewizyjnym sprawiają, że coraz trudniej jest opracować wiarygodne modele.

Rozważmy listę ostatnich innowacji technologicznych w branży medialnej: Widzowie coraz częściej używają swoich laptopów, tabletów i smartfonów do oglądania treści; usługi strumieniowe, takie jak Netflix i Amazon Prime, osiągnęły masową adopcję; nowe urządzenia podłączone do telewizora zmieniają doświadczenia związane z dużym ekranem. Ludzie przesuwają się w czasie, przesyłają strumieniowo i oglądają na bieżąco - mają większą niż kiedykolwiek kontrolę nad konsumowanymi mediami. Ich zachowanie jest nie tylko bardziej złożone, ale również bardziej nieprzewidywalne.

W Nielsenie mamy dostęp do wielu źródeł danych, które mierzą, jak ludzie konsumują media. Przed dodaniem danych o telewizji cyfrowej (zarówno jako danych wejściowych, jak i wyjściowych dla naszych modeli prognostycznych), chcieliśmy sprawdzić, czy można najpierw poprawić sposób przewidywania oglądalności dla telewizji tradycyjnej, używając danych o telewizji tradycyjnej jako naszego jedynego źródła. Dzięki Nielsen National People Meter, dysponujemy wysokiej jakości danymi, które sięgają wielu lat wstecz, ze spójną metodologią i solidnym panelem widzów reprezentujących cały kraj.

Wykorzystaliśmy te bogate dane na bardzo szczegółowym poziomie, aby stworzyć nowe modele predykcyjne: Zmienne takie jak historyczne ratingi Live+7 (tj, ratingi, które obejmują widownię na żywo, jak również widzów do siedmiu dni po pierwszej emisji), C3 ratingi (ratingi komercyjne, które obejmują odtwarzanie do trzech dni po emisji), HUT (procent gospodarstw domowych korzystających z telewizji w dowolnym momencie), zasięg, ratingi gospodarstw domowych, ratingi demograficzne, dzień tygodnia, godzina i tożsamość sieci to niektóre z kluczowych informacji, które wykorzystaliśmy jako zmienne wejściowe; wykorzystaliśmy również zaawansowane algorytmy uczenia maszynowego i algorytmy statystyczne (takie jak regresja ridge, random forest i gradient boosting), aby zidentyfikować odpowiednie zależności między danymi.

We współpracy z klientem przeprowadziliśmy szereg badań typu proof-of-concept, aby przetestować i zatwierdzić stworzone przez nas modele. Zaprojektowaliśmy nasze modele, aby przewidzieć przyszłe wyniki oglądalności na poziomie granularnym (bloki godzinowe dla małych grup demograficznych, takich jak mężczyźni w wieku 2-5 lat lub kobiety 65+), ale również przenieśliśmy te dane na poziom sieci. Aby zrozumieć, jak nasze modele radzą sobie z rzeczywistością, zastosowaliśmy okres wstrzymania na dwa kwartały, aby porównać nasze prognozy oraz wewnętrzne prognozy naszego klienta z rzeczywistymi danymi dotyczącymi oglądalności. Na przykład, trafnie przewidzieliśmy średni rating Live+7 na poziomie 1,94 dla osób 30-34 w sieci A między godziną 21:00 a 22:00 we wtorki w drugim kwartale 2015 roku, bazując wyłącznie na danych historycznych do pierwszego kwartału 2014 roku. Przewidywania były bardzo dokładne na poziomie sieci, gdzie mieliśmy 99% R-squared (procent wyjaśnionej wariancji), ale były trudniejsze na bardziej granularnym poziomie godzinowego bloku dziennego lub dla niektórych mniejszych grup demograficznych. Jednak nawet na poziomie bloku godzinowego, współczynnik R-squared naszego modelu wciąż przekraczał 95% i znacznie przewyższał model, na którym nasz klient polegał do tej pory. W ponad 2000 prognoz dziennych, nasze prognozy były o 41% dokładniejsze pod względem R-kwadratu i o 16% dokładniejsze pod względem ważonego absolutnego błędu procentowego (WAPE) - dwóch kluczowych miar dokładności prognoz.

Więcej szczegółów na temat tych modeli proof-of-concept oraz przeprowadzonych testów przedstawimy w nadchodzącym artykule. Najważniejszym wnioskiem z tego projektu jest to, że byliśmy w stanie przekształcić duże i hałaśliwe dane behawioralne w funkcje modelowania predykcyjnego i zrobić to w bardzo wydajny (i zautomatyzowany) sposób. Jednak każde miejsce po przecinku w ratingu ma ogromne implikacje finansowe, dlatego musimy nadal dążyć do rozwoju, dodając nowe zmienne wejściowe (takie jak wydatki na reklamę lub dane dotyczące programów), tworząc sposoby szybkiego dostosowania do zmian w pakietach programowych i liniach kanałów, testując nowe formy algorytmów regresji i klasyfikacji, a nawet łącząc wiele obiecujących modeli w jeden.

Chociaż projekt ten koncentrował się na tradycyjnej telewizji, warto zauważyć, że wpływ danych cyfrowych znajduje odzwierciedlenie w zmianach w ratingach telewizyjnych w danych historycznych, a zatem również w naszych prognozach. Jest to jednak pośredni pomiar skumulowanego efektu i nie zastępuje modelu, który skupiałby się konkretnie na oglądaniu telewizji over-the-top, na przykład, lub oglądaniu za pomocą aplikacji na smartfonie. Oprócz kolejnych kroków opisanych powyżej, wykorzystanie danych cyfrowych będzie ważnym elementem poprawy naszych prognoz w przyszłości.

W końcu, musimy również uznać, że każdy klient posiada dogłębną wiedzę na temat swoich programów, jak również silną intuicję na temat tego, jak te programy mogą zostać odebrane w przyszłości. Ten "element ludzki" nie powinien być ignorowany przy tworzeniu modeli predykcyjnych i może być szczególnie cenny przy reagowaniu na znaczące i nieprzewidziane zmiany na rynku. System, który integruje bogate dane, potężne algorytmy uczenia maszynowego i wiedzę z dziedziny, może osiągnąć lepsze wyniki niż każdy z nich mógłby osiągnąć w pojedynkę.

Powiązane tagi:

Kontynuuj przeglądanie podobnych spostrzeżeń