Usare l'apprendimento automatico per prevedere gli ascolti televisivi futuri in un panorama mediatico in evoluzione

Le aziende del settore dei media e gli inserzionisti si affidano agli ascolti televisivi ogni giorno per misurare il successo degli show televisivi, verificare che le dimensioni e la composizione del pubblico siano in linea con gli obiettivi di acquisto dei media e rimediare nel caso in cui i numeri non siano all'altezza. Da questo punto di vista, gli ascolti televisivi sono metriche che misurano il passato, o al massimo il presente, della visione televisiva.

Ma le aziende del settore dei media usano gli ascolti anche per prevedere il futuro. Gli ascolti stabiliscono le aspettative e influenzano le decisioni di programmazione da una stagione all'altra. Inoltre, aiutano a stabilire le tariffe pubblicitarie con largo anticipo rispetto alla messa in onda di una campagna. Negli Stati Uniti, per esempio, le reti televisive vendono la maggior parte del loro inventario pubblicitario per la stagione in occasione dell'"upfront", un evento che organizzano solo una volta all'anno (tra marzo e maggio). Ciò significa che la tariffa per gli annunci che vedete oggi in TV potrebbe essere stata negoziata più di un anno fa.

Per prevedere quale potrebbe essere l'indice di ascolto di uno show tra tre, sei o 12 mesi, i ricercatori utilizzano modelli di previsione. Molti di questi modelli vengono utilizzati da anni con poche o nessuna modifica. Hanno avuto successo nel prevedere gli ascolti e hanno fatto un ottimo lavoro nel sostenere lo scambio di miliardi di dollari pubblicitari ogni anno. Ma i rapidi cambiamenti nell'ecosistema televisivo rendono sempre più difficile lo sviluppo di modelli affidabili.

Considerate l'elenco delle recenti innovazioni tecnologiche nel settore dei media: Gli spettatori utilizzano sempre più spesso laptop, tablet e smartphone per guardare i contenuti; i servizi di streaming come Netflix e Amazon Prime hanno raggiunto un'adozione di massa; i nuovi dispositivi connessi alla TV stanno ridisegnando l'esperienza del grande schermo. Le persone si spostano nel tempo, fanno streaming e binge watching: hanno il controllo dei media che consumano come non mai. Il loro comportamento non è solo più complesso, ma anche più imprevedibile.

In Nielsen abbiamo accesso a molte risorse di dati che misurano il modo in cui le persone consumano i media. Prima di aggiungere i dati della TV digitale al mix (sia come input che come output dei nostri modelli di previsione), abbiamo voluto esaminare se fosse possibile migliorare il modo in cui prevediamo gli ascolti della TV tradizionale, utilizzando i dati della TV tradizionale come unica fonte. Grazie al Nielsen National People Meter, disponiamo di dati di alta qualità che risalgono a molti anni fa, con una metodologia coerente e un solido panel di spettatori rappresentativi a livello nazionale.

Abbiamo attinto a questi dati ricchi di dettagli per creare nuovi modelli predittivi: Variabili come gli ascolti storici Live+7 (cioè gli ascolti che comprendono il pubblico in diretta e gli spettatori fino a sette giorni dopo la trasmissione iniziale) (cioè gli ascolti che comprendono il pubblico in diretta e gli spettatori fino a sette giorni dopo la trasmissione iniziale), gli ascolti C3 (gli ascolti commerciali che comprendono la riproduzione fino a tre giorni dopo), l'HUT (la percentuale di famiglie che utilizzano la televisione in qualsiasi momento), la portata, gli ascolti delle famiglie, gli ascolti demografici, il giorno della settimana, l'ora del giorno e l'identità della rete sono alcune delle informazioni chiave che abbiamo usato come variabili di input; e abbiamo sfruttato algoritmi avanzati di machine learning e statistica (come la ridge regression, la random forest e il gradient boosting) per identificare le relazioni rilevanti tra i dati.

In collaborazione con un cliente, abbiamo condotto una serie di studi proof-of-concept per testare e convalidare i modelli creati. Abbiamo progettato i nostri modelli per prevedere gli ascolti futuri a livello granulare (blocchi di ore per piccoli gruppi demografici, come i maschi di età compresa tra i 2 e i 5 anni o le femmine di età superiore ai 65 anni), ma abbiamo anche arrotolato questi dati al livello di rete. Per capire come i nostri modelli si sono comportati rispetto alla realtà, abbiamo utilizzato un periodo di sospensione di due trimestri per confrontare le nostre previsioni e quelle interne del nostro cliente con i dati di ascolto reali. Ad esempio, abbiamo previsto con precisione un rating medio Live+7 di 1,94 per le persone tra i 30 e i 34 anni sulla rete A tra le 21 e le 22 del martedì nel secondo trimestre 2015, basandoci esclusivamente sui dati storici fino al primo trimestre 2014. Le previsioni sono state molto accurate a livello di rete, dove abbiamo ottenuto un R-squared (percentuale di varianza spiegata) del 99%, ma sono state più difficili a livello di blocco orario più granulare o per alcuni dei gruppi demografici più piccoli. Tuttavia, anche a livello di blocco orario, il nostro modello ha superato il 95% di R-quadro e ha ottenuto prestazioni significativamente superiori a quelle del modello su cui il nostro cliente si era basato fino a quel momento. Su oltre 2.000 proiezioni giornaliere, le nostre previsioni sono risultate più accurate del 41% per quanto riguarda l'R-quadro e del 16% per quanto riguarda l'errore percentuale assoluto ponderato (WAPE), due misure fondamentali per l'accuratezza delle previsioni.

Condivideremo maggiori dettagli su questi modelli proof-of-concept e sui test che abbiamo condotto in un prossimo articolo. Il risultato principale di questo progetto è che siamo stati in grado di convertire dati comportamentali grandi e rumorosi in funzioni di modellazione predittiva e di farlo in modo molto efficiente (e automatizzato). Ma ogni decimale di punto di rating ha enormi implicazioni finanziarie e dobbiamo continuare a spingerci oltre, aggiungendo nuove variabili di input (come la spesa pubblicitaria o i dati specifici dei programmi), costruendo modi per adattarsi rapidamente ai cambiamenti nei pacchetti di programmazione e nelle lineup dei canali, testando nuove forme di algoritmi di regressione e classificazione o persino combinando più modelli promettenti in uno solo.

Sebbene questo progetto si sia concentrato sulla TV tradizionale, è interessante notare che l'impatto dei dati digitali si riflette nei cambiamenti degli ascolti televisivi nei dati storici e quindi anche nelle nostre previsioni. Ma si tratta di una misurazione indiretta di un effetto cumulativo e non sostituisce un modello che si concentri specificamente sulla visione over-the-top, ad esempio, o sulla visione su un'applicazione per smartphone. Oltre ai prossimi passi descritti sopra, l'uso dei dati digitali sarà un elemento importante per migliorare le nostre previsioni in futuro.

Alla fine, dobbiamo anche riconoscere che ogni cliente ha una conoscenza intima dei suoi programmi, nonché una forte intuizione su come questi programmi potrebbero essere accolti in futuro. Questo "elemento umano" non deve essere ignorato quando creiamo modelli predittivi e può essere particolarmente prezioso quando si reagisce a cambiamenti significativi e imprevisti nel mercato. Un sistema che integra dati ricchi, potenti algoritmi di apprendimento automatico ed esperienza nel settore può ottenere risultati migliori di quelli che potrebbero essere raggiunti da soli.

Usare il machine learning per prevedere gli ascolti televisivi futuri in un panorama mediatico in evoluzione

Continua a sfogliare approfondimenti simili

Marketing generazionale: Perché i marketer non dovrebbero ignorare l'età nel panorama mediatico odierno

Strategie vincenti per gli inserzionisti del settore retail

Il record: Tendenze di ascolto audio nel 1° trimestre degli Stati Uniti

I nostri prodotti possono aiutare voi e la vostra azienda

Impatto sui media

Commspoint

Ad Intel

Trovate la soluzione giusta per la vostra azienda

Come possiamo aiutarvi?