Nie tak ukryty problem z dużymi zbiorami danych

W kręgach medialnych pojawiło się ostatnio wiele energii i emocji związanych z przyszłością pomiarów i obietnicą big data. W Nielsen od dawna rozumiemy wartość dużych zbiorów danych, a w zeszłym miesiącu ogłosiliśmy dodatkowe szczegóły dotyczące tego, w jaki sposób dodajemy je do naszej krajowej usługi pomiaru telewizji.

Wiemy również, że żaden panel nie jest idealny, co pokazały ostatnie miesiące.

Ale kiedy nasze zespoły analityków danych słyszą niektóre z wielkich, szerokich twierdzeń o tym, że duże zbiory danych uratują dzień i naprawią wszystkie postrzegane wyzwania w branży, trudno nie być sceptycznym.

Dzieje się tak dlatego, że pomimo całej swojej wartości i niesamowitego potencjału, duże zbiory danych, do których branża ma obecnie dostęp, mają bardzo realne ograniczenia.

Niedawny przykład

Po utracie dostępu do przenośnych liczników osób Nielsena, Comscore poinformował, że będzie teraz korzystać z zestawów danych z Experian ConsumerView, aby pomóc im zidentyfikować indywidualnych widzów do celów pomiarowych. Ich ogłoszenie zostało przedstawione w prasie branżowej jako postęp - w końcu, jeśli duże zbiory danych są przyszłością, każda zmiana w tym kierunku musi być dobra.

Niestety dla ich klientów i konsumentów tak nie jest.

Istnieje garstka zewnętrznych dostawców tożsamości, którzy zapewniają możliwość dopasowywania zestawów danych w oparciu o informacje umożliwiające identyfikację osoby i zapewniają cechy demograficzne, zarówno bezpośrednio zebrane, jak i modelowane.

W Nielsen regularnie sprawdzamy te dane. Robimy to poprzez bezpośredni pomiar informacji z naszych solidnych paneli, aby zweryfikować dokładność tych zestawów danych w zakresie 1) prawidłowego dopasowania do gospodarstwa domowego i 2) dokładnego raportowania danych demograficznych i charakterystyk.

To, co zwykle znajdujemy, powinno dać reklamodawcom do myślenia.

Większość dostępnych obecnie zestawów danych opiera się na informacjach rozliczeniowych lub gromadzeniu zachowań online, a nie na profilach demograficznych. Nie zawierają one szczegółowych informacji na temat tego, kim dokładnie są osoby znajdujące się na ich listach - od wieku, przez dochody, po rasę i pochodzenie etniczne - tak jak ma to miejsce w przypadku solidnego panelu. Te zestawy danych, ponieważ są tworzone przez transfery maszyna-maszyna, również zwiększają możliwość marnotrawstwa i oszustw.

Z tego powodu poziom pewności co do tego, kto faktycznie mieszka w danym gospodarstwie domowym, jest ograniczony. Nie są też w stanie powiedzieć, kto w danym domu ogląda dany program w określonym czasie.

Nawet jeśli triangulujesz te dane z innymi źródłami, prawie na pewno masz ogromne luki i błędy w swoich szacunkach. Może to być akceptowalne, jeśli przypadek użycia jest ukierunkowany, ale te dane same w sobie nie zapewniają dokładności, obiektywności i przejrzystości wymaganej do dostarczania pomiarów.

Dlaczego ma to znaczenie

Co to oznacza w praktyce? Cóż, ma to kilka implikacji.

W przypadku odejścia Comscore od naszych Personal People Meters, które w rzeczywistości przymocowują mikrofony do ~100 000 prawdziwych, zweryfikowanych osób i dokładnie śledzą, co oglądają,

w modelu, który wykorzystuje dane billingowe do szacowania, kto w danym mieszkaniu może oglądać dany program w danym czasie, wynikiem będzie mniej dokładny odczyt tego, kto co ogląda.

Ale prawdopodobnie większym skutkiem jest to, że ta zmiana jeszcze bardziej oddali branżę od uchwycenia prawdziwej reprezentacji kraju.

Wiemy, że wiele z tego typu zestawów danych lepiej sprawdza się w dostarczaniu danych na temat gospodarstw domowych, gdy mieszkające w nich osoby są właścicielami swoich domów i mieszkają w nich od dłuższego czasu. Ma to swoje uzasadnienie. Problem polega na tym, że długoletni właściciele domów są zazwyczaj bardziej biali, bardziej zamożni i znacznie starsi niż cały naród. Z założenia te zestawy danych nie uwzględniają osób czarnoskórych i brązowych, osób o niższych dochodach i osób młodszych, w czasie, gdy wszystkie te segmenty rosną, a nie maleją.

To samo dotyczy zestawów danych opartych na danych z dekoderów, które mają tendencję do zawyżania liczby bardziej zamożnych konsumentów, którzy są skłonni płacić więcej za pakiety kablowe, a tym samym nieproporcjonalnie wykluczają konsumentów o niższych dochodach, którzy są ważnymi celami dla wielu marketerów.

Branża medialna słusznie uczyniła dokładną reprezentację społeczności czarnoskórych i brunatnych głównym priorytetem. W Nielsen nasze osiągnięcia w tym zakresie od dziesięcioleci nie są doskonałe, ale dziś mamy najdokładniejszy i najbardziej zaawansowany obraz kraju takim, jakim jest naprawdę.

Narzędzia pomiarowe oparte na dużych zbiorach danych, które nie są wspierane przez reprezentatywny, zweryfikowany i skontrolowany panel, nie mogą tego twierdzić. Panele Nielsena mogą być ukierunkowane na wiele grup demograficznych w ramach spisu powszechnego z 1% zmiennością, ale opcje skoncentrowane na dużych zbiorach danych nie są nawet zbliżone do tego. Branża musi być otwarta i uczciwa wobec wyzwań, jakie stawiają duże zbiory danych, jeśli chodzi o reprezentację.

Szerszy problem

Żeby było jasne, nie jest to tylko problem Comscore. Jest to problem wszystkich dużych zbiorów danych, które są obecnie dostępne.

W sierpniu 2020 r. ANA, we współpracy z MRC i Sequent Partners, wykorzystała dane Nielsena jako punkt odniesienia w badaniu mającym na celu zrozumienie stopnia, w jakim wielokulturowa publiczność była dokładnie reprezentowana w targetowaniu mediów. W badaniu przeanalizowano zagregowany zbiór wysokiej jakości danych marketingowych i medialnych i starano się zrozumieć, jak dokładnie były one kierowane do czarnoskórych, brązowych i azjatyckich odbiorców. Wyniki były niepokojące, ale wcale nas nie zaskoczyły.

Badanie wykazało, że duże zbiory danych, na których opiera się branża, nie były w stanie sprostać zadaniu dokładnego ukierunkowania na te krytyczne społeczności. Po części dlatego, że zestawy danych nie zostały zaprojektowane do przechwytywania bogatych danych o tym, kim naprawdę są ci konsumenci, tak jak w przypadku solidnych paneli, w danych występowały powszechne przekłamania i niedoreprezentowanie.

Porównajmy to teraz z solidnymi panelami Nielsena, które zapewniają bogactwo bezpośrednio zebranych informacji od prawdziwych ludzi, reprezentatywnych dla całej populacji USA. Kto mieszka w domu? Ile mają lat? Z jaką rasą i pochodzeniem etnicznym się identyfikują? Kto ogląda telewizję w danym momencie? Panel Nielsena odpowiada na te pytania.

Ponownie, panele same w sobie nie są idealne, ale nie bez powodu inne branże, a mianowicie farmaceutyczna, stosują podejścia podobne do paneli przy zatwierdzaniu leków. Dzieje się tak dlatego, że gdy stawka jest wysoka, nic nie zastąpi prawdziwych, zweryfikowanych ludzi.

Wiemy, że wielu graczy z branży jest podekscytowanych obietnicą big data, my również. Ale jako branża musimy być szczerzy co do tego, co big data może, a czego nie może rozwiązać. Rozumiemy również, że przyszłością pomiaru mediów jest podejście, które łączy zasięg dużych zbiorów danych ze zweryfikowanymi danymi osobowymi z solidnych paneli.

Ten artykuł pierwotnie ukazał się w Next TV.

Nie tak ukryty problem z dużymi zbiorami danych

Niedawny przykład

Dlaczego ma to znaczenie

Szerszy problem

Kontynuuj przeglądanie podobnych spostrzeżeń

Nowe oblicze rywalizacji: jak historie społeczności LGBTQ+ przyciągają widzów serwisów streamingowych i co to oznacza dla marek

Jeśli chodzi o telewizję, Moc jest po stronie fanów „Gwiezdnych wojen”

Dlaczego fani anime powinni znaleźć się w centrum uwagi wszystkich

Nasze produkty mogą pomóc Tobie i Twojej firmie

Brand Lift

Międzynarodowa telewizja linearna

Krajowe i lokalne pomiary telewizyjne w USA

Znajdź odpowiednie rozwiązanie dla swojej firmy

Jak możemy pomóc?