02_Elements/Icons/ArrowLeft Powrót do Insight

Spostrzeżenia > Media

Wykorzystanie uczenia maszynowego do przewidywania przyszłych wyników oglądalności telewizji w zmieniającym się krajobrazie medialnym

5 minut czytania | Jingsong Cui, VP, i Scott Sereday, Manager, Data Science, Nielsen | Październik 2016 r.

Firmy medialne i reklamodawcy polegają na ratingach telewizyjnych każdego dnia, aby zmierzyć sukces programów telewizyjnych, zweryfikować, czy wielkość i skład widowni są zgodne z celami zakupu mediów, a także poprawić sytuację w przypadku, gdy liczby są niewystarczające. Z tego punktu widzenia ratingi telewizyjne są wskaźnikami, które mierzą przeszłość, a w najlepszym razie teraźniejszość oglądania telewizji.

Ale firmy medialne wykorzystują również ratingi do przewidywania przyszłości. Oceny określają oczekiwania i wpływają na decyzje programowe z sezonu na sezon. Pomagają również w ustalaniu stawek reklamowych z dużym wyprzedzeniem w stosunku do faktycznego czasu emisji kampanii. Na przykład w Stanach Zjednoczonych sieci telewizyjne sprzedają większość swoich zasobów reklamowych na dany sezon podczas "upfront", wydarzenia, które organizują tylko raz w roku (między marcem a majem). Oznacza to, że stawka za reklamy, które oglądasz dziś w telewizji, mogła zostać wynegocjowana ponad rok temu.

Aby przewidzieć, jaka może być ocena programu za trzy, sześć lub 12 miesięcy, naukowcy wykorzystują modele prognostyczne. Wiele z tych modeli jest używanych od lat z niewielkimi lub żadnymi modyfikacjami. Były one skuteczne w przewidywaniu oglądalności i wykonały świetną robotę, wspierając wymianę miliardów dolarów reklamowych każdego roku. Jednak szybkie zmiany w ekosystemie telewizyjnym sprawiają, że opracowanie wiarygodnych modeli staje się coraz trudniejsze.

Weźmy pod uwagę listę ostatnich innowacji technologicznych w branży medialnej: Widzowie coraz częściej używają laptopów, tabletów i smartfonów do oglądania treści; usługi streamingowe, takie jak Netflix i Amazon Prime, osiągnęły masową akceptację; nowe urządzenia podłączone do telewizora zmieniają sposób korzystania z dużego ekranu. Ludzie przesuwają się w czasie, streamują i oglądają - mają większą kontrolę nad mediami, które konsumują, niż kiedykolwiek wcześniej. Ich zachowanie jest nie tylko bardziej złożone, ale także bardziej nieprzewidywalne.

W Nielsen mamy dostęp do wielu zasobów danych, które mierzą sposób, w jaki ludzie korzystają z mediów. Przed dodaniem danych dotyczących telewizji cyfrowej (zarówno jako danych wejściowych, jak i wyjściowych naszych modeli prognozowania), chcieliśmy sprawdzić, czy można najpierw poprawić sposób przewidywania oglądalności tradycyjnej telewizji, wykorzystując tradycyjne dane telewizyjne jako jedyne źródło. Dzięki Nielsen National People Meter dysponujemy wysokiej jakości danymi, które sięgają wielu lat wstecz, ze spójną metodologią i solidnym panelem widzów reprezentatywnych dla całego kraju.

Wykorzystaliśmy te bogate dane na bardzo szczegółowym poziomie, aby stworzyć nowe modele predykcyjne: Zmienne takie jak historyczne oceny Live+7 (tj, ratingi, które obejmują widownię na żywo, a także widzów do siedmiu dni po początkowej emisji), ratingi C3 (ratingi komercyjne, które obejmują odtwarzanie do trzech dni po emisji), HUT (odsetek gospodarstw domowych korzystających z telewizji w dowolnym momencie), zasięg, ratingi gospodarstw domowych, ratingi demograficzne, dzień tygodnia, godzina dnia i tożsamość sieci to tylko niektóre z kluczowych informacji, które wykorzystaliśmy jako zmienne wejściowe; wykorzystaliśmy zaawansowane algorytmy uczenia maszynowego i statystyczne (takie jak regresja grzbietowa, losowy las i wzmocnienie gradientowe), aby zidentyfikować odpowiednie relacje między danymi.

We współpracy z klientem przeprowadziliśmy szereg badań weryfikacyjnych, aby przetestować i zweryfikować stworzone przez nas modele. Zaprojektowaliśmy nasze modele do przewidywania przyszłych ratingów na poziomie szczegółowym (bloki godzinowe dla małych grup demograficznych, takich jak mężczyźni w wieku 2-5 lat lub kobiety w wieku 65+), ale również rozwinęliśmy te dane do poziomu sieci. Aby zrozumieć, jak nasze modele wypadły w porównaniu z rzeczywistością, wykorzystaliśmy okres dwóch kwartałów, aby porównać nasze prognozy, a także wewnętrzne prognozy naszego klienta z rzeczywistymi danymi dotyczącymi ratingów. Na przykład, dokładnie przewidzieliśmy średni rating Live+7 na poziomie 1,94 dla osób w wieku 30-34 lat w sieci A między 21:00 a 22:00 we wtorki w drugim kwartale 2015 roku, opierając się wyłącznie na danych historycznych do pierwszego kwartału 2014 roku. Przewidywania były bardzo dokładne na poziomie sieci, gdzie uzyskaliśmy 99% R-kwadrat (procent wyjaśnionej wariancji), ale były trudniejsze na bardziej szczegółowym poziomie bloku godzinowego lub dla niektórych mniejszych grup demograficznych. Jednak nawet na poziomie bloków godzinowych R-kwadrat naszego modelu nadal przekraczał 95% i znacznie przewyższał model, na którym do tej pory polegał nasz klient. W ponad 2000 prognoz dziennych nasze prognozy były o 41% dokładniejsze pod względem kwadratu R i o 16% dokładniejsze pod względem ważonego bezwzględnego błędu procentowego (WAPE) - dwóch kluczowych miar dokładności prognozowania.

Więcej szczegółów na temat tych modeli proof-of-concept i testów, które przeprowadziliśmy, przedstawimy w nadchodzącym artykule. Kluczowym wnioskiem z tego projektu jest to, że byliśmy w stanie przekształcić duże i zaszumione dane behawioralne w funkcje modelowania predykcyjnego i zrobić to w bardzo wydajny (i zautomatyzowany) sposób. Jednak każdy dziesiętny punkt oceny ma ogromne implikacje finansowe i musimy nadal przesuwać granice, dodając nowe zmienne wejściowe (takie jak wydatki na reklamę lub dane specyficzne dla programu), budując sposoby szybkiego dostosowywania się do zmian w pakietach programowych i składach kanałów, testując nowe formy algorytmów regresji i klasyfikacji, a nawet łącząc wiele obiecujących modeli w jeden.

Chociaż projekt ten koncentrował się na tradycyjnej telewizji, warto zauważyć, że wpływ danych cyfrowych znajduje odzwierciedlenie w zmianach oglądalności telewizji w danych historycznych - a tym samym również w naszych prognozach. Jest to jednak pośredni pomiar skumulowanego efektu i nie zastępuje modelu, który skupiałby się konkretnie na oglądaniu over-the-top, na przykład lub oglądaniu w aplikacji na smartfony. Oprócz kolejnych kroków opisanych powyżej, wykorzystanie danych cyfrowych będzie ważnym elementem poprawy naszych prognoz w przyszłości.

W końcu musimy również zdać sobie sprawę, że każdy klient ma dogłębną wiedzę na temat swoich programów, a także silną intuicję dotyczącą tego, jak te programy mogą zostać odebrane w przyszłości. Ten "element ludzki" nie powinien być ignorowany podczas tworzenia modeli predykcyjnych i może być szczególnie cenny w przypadku reagowania na znaczące i nieprzewidziane zmiany na rynku. System, który integruje bogate dane, potężne algorytmy uczenia maszynowego i wiedzę specjalistyczną w danej dziedzinie, może osiągnąć lepsze wyniki niż każdy z nich mógłby osiągnąć samodzielnie.

Powiązane tagi:

Kontynuuj przeglądanie podobnych spostrzeżeń

Nasze produkty mogą pomóc Tobie i Twojej firmie