Big data skaber hele tiden overskrifter, men hvad er det egentlig, og hvorfor er det både en gave og en potentiel hindring for præcis publikumsmåling? Vi dykker ned i fordele og ulemper ved big data og måder at få det til at fungere på.
Hvad er big data?
I den lineære medieverden refererer big data typisk til to typer datastrømme, der produceres af de systemer, der leverer programmer til slutbrugerne: Return-path data (RPD) fra kabel- eller satellit-set-top-bokse (som Dish eller DirecTV) og automatisk indholdsgenkendelse (ACR) fra internetforbundne smart-tv-apparater (som Samsung eller Vizio).


ACR-data
I stedet for en log over kanalskift overvåger ACR-teknologien billederne på tv-skærmen. Billederne fungerer som fingeraftryk, som sammenlignes med et stort referencebibliotek for at identificere, hvad programmet eller reklamen faktisk er. Billeder tidsstemples for at forstå, hvornår afspilningen finder sted.
RPD-data
Registrerer, hvilken kanal set-top-boksen er indstillet på, og hvornår der skiftes kanal. Disse data kan matches med en tv-plan for at afgøre, hvilket program der afspilles på det pågældende tidspunkt, og med data fra udbyderens annonceservere eller dens partnere for at finde ud af, hvilke reklamer husstanden udsættes for.
I begge tilfælde tillader slutbrugerne dataindsamling på deres enheder. Samarbejdet er relativt højt, fordi dataindsamling ikke kun driver måling, men også meget ønskede funktioner som brugerpræferencer og indholdsanbefalinger. Et RPD- eller ACR-datasæt kan dække langt over 30 millioner enheder.
Hvorfor er big data så vigtigt?

Der var engang, hvor folk kun havde en håndfuld kanaler at vælge imellem. En husstandsrating1 på over 60 (som finalen på M*A*S*H i 1983) eller endda 40 (som Seinfeld-finalen i 1998) er ubegribelig for et manuskriptprogram i dag. Vi lever i en meget mere fragmenteret verden med en meget lang, lang liste af programmeringsmuligheder.
Det er godt for tv-seerne, men det komplicerer tingene for panelbaseret forskning: I et landsdækkende panel med 101.000 mennesker vil et tv-program med en rating på 0,2 blive set af 80 husstande, og måske kun én i Atlanta eller Dallas metroområde. Med titusindvis af enheder under måling gør big data det muligt for forskningsvirksomheder at rapportere tv-brug på et meget mere detaljeret niveau, hvilket giver dækning for mange flere programmer med små og ofte forskelligartede målgrupper. Men i sig selv var det aldrig meningen, at big data skulle bruges til seermåling. Vi vil dykke ned i nogle af fordelene og ulemperne ved big data i forbindelse med seermåling.
Begrænsningerne ved big data
Udfordring #1: Big data er ikke repræsentative
For at kunne handle med tillid har mediekøbere og -sælgere brug for en måleløsning, der afspejler befolkningen i al dens mangfoldighed: Alle aldersgrupper, racer, etniciteter og mange andre vigtige demografiske og adfærdsmæssige karakteristika skal være til stede og proportionelle i de underliggende data.
Men størrelse garanterer ikke repræsentativitet. Når vi analyserer antallet af installationer i Nielsens nationale tv-panel, har vi fundet ud af, at hjem med RPD er uforholdsmæssigt ældre og mindre racemæssigt mangfoldige end den generelle befolkning. Latinamerikanske husstande er f.eks. underrepræsenteret med ca. 30 %, og husstande under 25 år er næsten helt fraværende i RPD-datasættene. På den anden side er ACR-datasættene yngre end den generelle befolkning, og de har også flere husstandsmedlemmer. Brug af statistisk vægtning i big data kan skjule problemet, men det kan ikke kompensere for den manglende, unikke seeradfærd hos underrepræsenterede målgrupper.
For at gøre ondt værre ville en måleløsning, der udelukkende baserer sig på RPD- og ACR-data, gå glip af husstande, der kun modtager streaming og over-the-air2, som er en voksende del af kagen.
Udfordring nr. 2: Big data fanger måske ikke al seeradfærd
Selv hvis de inkluderede repræsentative husstande, fanger RPD- og ACR-datasættene ikke visning fra alle set-top-bokse i husstanden eller fra andre tv-apparater i hjemmet, som ikke er smart-tv'er. Disse ekstra tv-apparater kan afspille forskellige programmer til forskellige familiemedlemmer (som madlavningsprogrammer i køkkenet eller børneprogrammer i legerummet), så ikke alene er big data-husstande ikke repræsentative for befolkningen, men selve big data er ikke repræsentative for al den tv-sening, der kan finde sted i disse hjem.

Et frustrerende problem for forskningsvirksomheder, der er afhængige af RPD, er, at set-top-boksen ofte forbliver tændt, når det tilsluttede tv-apparat er slukket. Denne "fantom"-indstilling kan overdrive den faktiske seerandel med 145% til 260%, afhængigt af udbyderen. Der er modeller, der kan implementeres for at kompensere for det, men uden et referencepunkt - som et panel, der er informeret af ægte seere - kan det være svært at udvikle den rigtige heuristik.
ACR er heller ikke immun over for problemer med datakvaliteten. Nogle smart-tv-streamingprogrammer blokerer for, at ACR kan optage indholdet på skærmen, mens appen er i brug. Det kan se ud, som om tv'et er slukket, når indholdet faktisk er blevet blokeret af en app. Og de fleste udbydere overvåger kun en lille del af alle tilgængelige programmer. I en nylig analyse fandt vi ud af, at ACR-udbydere i øjeblikket kun overvåger 31% af alle tilgængelige stationer, og 23% af de optagede minutter kommer stadig fra stationer, der ikke overvåges. Uden referencefingeraftryk at sammenligne med, bliver disse visninger ikke rapporteret.
Udfordring nr. 3: Big data mangler demografiske oplysninger om seerne
RPD- og ACR-udbydere indsamler tuningsdata fra millioner af enheder, men de ved ikke, hvem der ser med, og det er det, annoncørerne i sidste ende efterspørger.
En måde at kompensere for den mangel på er at samarbejde med demografiske tredjepartsleverandører. Disse virksomheder registrerer den demografiske sammensætning af alle husstande i landet, og en forskningsvirksomhed kan forsøge at modellere, hvem der ser hvad, blot ud fra den samlede sum af tuningsdata i en given husstand og den pågældende husstands demografiske sammensætning.
Et børneprogram? Det må være fra et barn i huset. En wrestling-kamp? Det må være fra en mandlig seer. Uden et referencepunkt i det virkelige liv til at hjælpe maskinlæringsalgoritmen kan du nemt se, hvor denne type modellering kan bryde sammen. Ikke overraskende bliver den gradvist mindre pålidelig med husstandens størrelse, og det ender med at skade nøjagtigheden af dataene for større familier, som dem med børn, ikke-hvide og yngre seere.
Fordelene ved paneldata
For brands og medievirksomheder, der er på udkig efter en stabil og pålidelig løsning til måling af målgrupper, er de udfordringer, der er skitseret ovenfor, ikke til at komme udenom. Paneldata er afgørende for at overvinde disse begrænsninger.
Når vi hos Nielsen analyserer RPD- eller ACR-data, er vi i stand til at identificere, hvilke hjem og enheder der er en del af vores paneler, og sammenligne afstemningsdataene i disse hjem med den seeradfærd, der registreres af vores målere. Ved at bruge vores paneler som en kilde til sandhed i disse hjem kan vi finde ud af, hvor big data afviger fra sandheden, og udvikle robuste modeller til at justere for disse uregelmæssigheder.
For eksempel har vi udviklet en metode til at finde ud af, hvor en enhed er placeret i et hus, og matche dens tuningsdata med specifikke seere. En anden model hjælper os med at afgøre, om et tv-apparat er slukket, mens set-top-boksen er tændt. Endnu en model kan sortere enhedsopdateringer fra, der registreres som ekstra tuning, samt situationer, hvor en enhed returnerer mere end én tuninghændelse på samme tid.
Mennesker, ikke apparater

I sidste ende handler målgruppeundersøgelser om mennesker, ikke enheder.
Der er ingen tvivl om, at big data er en fantastisk tilføjelse til medieforskerens arsenal. Det åbner døren til mere detaljeret rapportering, end det nogensinde før har været muligt. Men det er i sagens natur fejlbehæftet, forudindtaget og, mest fundamentalt, kortsigtet: Den indfanger afstemningsdata, ikke visningsdata.
For at opfylde sit potentiale skal det ryddes op, udfyldes, kalibreres og beriges med relevant demografi. Det er her, paneldata kommer ind i billedet. Maskinlæring fungerer bedst med stærke trænings- og valideringsdata, og der findes ingen bedre træningsdata i branchen end de nationalt repræsentative paneldata, der er kernen i dagens medieforskningsvirksomhed.
Nielsens Behov for at vide gennemgår de grundlæggende principper for publikumsmåling og afmystificerer mediebranchens hotteste emner. Læs hver eneste artikel her.
Bemærk
1 En husstandsrating er den procentdel af alle husstande i landet, der er indstillet på et givet program.
2 Programmer, der er tilgængelige via et "signal" fra en antenne. OTA-udsendelser (Over the air) var den første type tv, der var tilgængelig.