Passa al contenuto
02_Elementi/Icone/FrecciaSinistra Torna a Insight
Approfondimenti > Pubblico

Da sapere: I pro e i contro dei big data nella misurazione dell'audience

8 minuti di lettura | Agosto 2023

I big data continuano a fare notizia, ma che cos'è esattamente e perché è sia un dono che un potenziale ostacolo a un'accurata misurazione dell'audience? Analizziamo i pro, i contro e i modi per farli funzionare.  

Cosa sono i big data?

Nel mondo dei media lineari, i big data si riferiscono in genere a due tipi di flussi di dati prodotti dagli stessi sistemi che forniscono la programmazione agli utenti finali: I dati di ritorno (RPD) provenienti dai decoder via cavo o via satellite (come Dish o DirecTV) e il riconoscimento automatico dei contenuti (ACR) provenienti dalle smart TV collegate a Internet (come Samsung o Vizio).

Dati ACR

Piuttosto che un registro dei cambi di canale, la tecnologia ACR monitora le immagini sullo schermo televisivo. Le immagini agiscono come impronte digitali, che vengono confrontate con un'ampia libreria di riferimento per identificare il programma o lo spot in questione. Le immagini vengono registrate temporalmente per capire quando avviene la riproduzione.

Dati RPD

Registra su quale canale è sintonizzato il set-top box e a che ora avviene il cambio di canale. Questi dati possono essere abbinati a un palinsesto televisivo per determinare quale programma è in onda in quel particolare momento e con i dati dei server pubblicitari del provider o dei suoi partner per capire a quale pubblicità è esposta la famiglia.

In entrambi i casi, gli utenti finali consentono la raccolta dei dati sui loro dispositivi. La collaborazione è relativamente alta perché la raccolta dei dati non serve solo per le misurazioni, ma anche per funzioni molto desiderate come le preferenze degli utenti e le raccomandazioni di contenuti. Un set di dati RPD o ACR può coprire ben oltre 30 milioni di dispositivi.

Perché i big data sono un problema?

Un tempo la gente aveva solo una manciata di canali tra cui scegliere. Un indice di ascolto1 superiore a 60 (come il finale di M*A*S*H nel 1983) o addirittura a 40 (come il finale di Seinfeld nel 1998) è oggi impensabile per uno show sceneggiato. Viviamo in un mondo molto più frammentato, con un elenco molto lungo di opzioni di programmazione.

Questo è ottimo per i telespettatori, ma complica le cose per le ricerche basate sui panel: In un panel nazionale di 101.000 persone, un programma televisivo con un rating di 0,2 sarà visto da 80 famiglie, e forse solo da una nell'area metropolitana di Atlanta o Dallas. Con decine di milioni di dispositivi da misurare, i big data consentono alle società di ricerca di riportare l'utilizzo della TV a un livello molto più granulare, fornendo una copertura per molti più programmi con audience piccole e spesso diverse. Ma da soli, i big data non sono mai stati pensati per essere utilizzati per la misurazione dell'audience.

Sfida n. 1: i grandi dati non sono rappresentativi

Per effettuare transazioni in tutta tranquillità, gli acquirenti e i venditori di media hanno bisogno di una soluzione di misurazione che rifletta la popolazione in tutta la sua diversità: Tutti i gruppi di età, le razze, le etnie e molte altre caratteristiche demografiche e comportamentali chiave devono essere presenti e proporzionali nei dati sottostanti.

Ma le dimensioni non garantiscono la rappresentatività. Analizzando i conteggi degli installati nel panel Nielsen National TV, abbiamo scoperto che le case con RPD sono sproporzionatamente più vecchie e meno diversificate dal punto di vista razziale rispetto alla popolazione generale. Le famiglie ispaniche, ad esempio, sono sottorappresentate di circa il 30% e i capifamiglia di età inferiore ai 25 anni sono quasi del tutto assenti dai dataset RPD. D'altra parte, i set di dati ACR sono più giovani della popolazione generale e hanno anche un maggior numero di membri del nucleo familiare. L'uso della ponderazione statistica nei big data può nascondere il problema, ma non può compensare la mancanza di comportamenti di visione unici di un pubblico sottorappresentato.

A peggiorare le cose, una soluzione di misurazione che si basi esclusivamente sui dati RPD e ACR non consentirebbe di individuare le famiglie che trasmettono via etere2 e in streaming, che rappresentano una fetta crescente della torta.

Sfida n. 2: i grandi dati potrebbero non catturare tutti i comportamenti di visualizzazione

Anche se includessero famiglie rappresentative, i dati RPD e ACR non rilevano la visione da tutti i set-top box della famiglia o da altri televisori presenti in casa che non siano smart TV. Questi apparecchi aggiuntivi possono trasmettere programmi diversi a membri diversi della famiglia (come programmi di cucina in cucina o programmi per bambini nella stanza dei giochi), quindi non solo le famiglie con i big data non sono rappresentative della popolazione, ma i big data stessi non sono rappresentativi di tutte le visualizzazioni che possono avvenire in quelle case.

Un problema frustrante per le società di ricerca che si affidano alla RPD è che spesso il set-top box rimane acceso quando il televisore collegato è spento. Questa sintonizzazione "fantasma" può esagerare la visione effettiva dal 145% al 260%, a seconda del provider. Esistono modelli che possono essere implementati per compensare questo fenomeno, ma senza un punto di riferimento, come un panel informato da una visione reale, può essere difficile sviluppare l'euristica giusta.

Anche l'ACR non è immune da problemi di qualità dei dati. Alcune applicazioni di streaming per smart TV bloccano l'ACR dall'acquisizione dei contenuti sullo schermo mentre l'applicazione è in uso. Potrebbe sembrare che il televisore sia spento quando in realtà il contenuto è stato bloccato da un'applicazione. Inoltre, la maggior parte dei provider monitora solo una piccola parte di tutta la programmazione disponibile. In una recente analisi, abbiamo scoperto che i fornitori di ACR attualmente monitorano solo il 31% di tutte le stazioni disponibili e che il 23% dei minuti registrati proviene ancora da stazioni non monitorate. Senza impronte digitali di riferimento con cui confrontarsi, questa visione non viene segnalata.

Sfida n. 3: i big data mancano dei dati demografici degli spettatori

I fornitori di RPD e ACR acquisiscono i dati di sintonizzazione da milioni di dispositivi, ma non sanno chi li sta guardando, che è ciò che gli inserzionisti chiedono in ultima analisi.

Un modo per ovviare a questa mancanza è quello di collaborare con fornitori demografici terzi. Queste aziende mantengono un registro della composizione demografica di ogni famiglia del Paese, e una società di ricerca potrebbe tentare di modellare chi guarda cosa semplicemente dalla somma totale dei dati di sintonizzazione di una determinata famiglia e della composizione demografica di quella famiglia.

Un programma per bambini? Deve essere di un bambino in casa. Un incontro di wrestling? Deve provenire da uno spettatore maschio. Senza un punto di riferimento reale che aiuti l'algoritmo di apprendimento automatico, è facile capire dove questo tipo di modellazione potrebbe fallire. Non sorprende che l'affidabilità diminuisca progressivamente con l'aumentare delle dimensioni del nucleo familiare, il che finisce per compromettere l'accuratezza dei dati per le famiglie più numerose, come quelle con bambini, gli spettatori non bianchi e quelli più giovani. 

Il valore persistente dei dati panel 

Per i marchi e le aziende del settore dei media alla ricerca di una soluzione stabile e affidabile per la misurazione dell'audience, le sfide sopra descritte non sono un inizio. I dati dei panel sono fondamentali per superare queste limitazioni.

In Nielsen, quando analizziamo i dati RPD o ACR, siamo in grado di identificare le case e i dispositivi che fanno parte dei nostri panel e di confrontare i dati di sintonizzazione in quelle case con il comportamento di visione catturato dai nostri meter. Utilizzando i nostri panel come fonte di verità in quelle case, possiamo individuare i punti in cui i big data si discostano dalla verità e sviluppare modelli robusti per correggere tali anomalie.

Ad esempio, abbiamo sviluppato una metodologia per capire dove si trova un dispositivo all'interno di una casa e abbinare i suoi dati di sintonizzazione a spettatori specifici. Un altro modello ci aiuta a determinare se un televisore è spento mentre il set-top box è acceso. Un altro modello ancora è in grado di distinguere gli aggiornamenti dei dispositivi che vengono registrati come sintonizzazioni extra, nonché le situazioni in cui un dispositivo restituisce più di un evento di sintonizzazione allo stesso tempo.

Persone, non dispositivi

In definitiva, la ricerca sul pubblico riguarda le persone, non i dispositivi.

Non c'è dubbio che i big data siano una grande aggiunta all'arsenale del ricercatore dei media. Aprono le porte a un reporting più granulare di quanto fosse possibile in passato. Ma è intrinsecamente difettoso, parziale e, soprattutto, miope: Cattura i dati di sintonizzazione, non quelli di visualizzazione.

Per sfruttare il suo potenziale, deve essere ripulito, completato, calibrato e arricchito con dati demografici rilevanti. È qui che entrano in gioco i dati dei panel. L'apprendimento automatico funziona al meglio con dati di formazione e convalida solidi, e nel settore non esistono dati di formazione migliori dei dati dei panel rappresentativi a livello nazionale che costituiscono il cuore dell'attuale attività di ricerca sui media.

Il programma Nielsen Need to Know esamina i fondamenti della misurazione dell'audience e demistifica gli argomenti più scottanti del settore dei media.

Nota

1 L'indice di ascolto domestico è la percentuale di tutte le famiglie del Paese sintonizzate su un determinato programma.
2 Programmazione disponibile tramite un "segnale" proveniente da un'antenna. Le trasmissioni via etere (OTA) sono state il primo tipo di televisione disponibile.

Continua a sfogliare approfondimenti simili