Pular para o conteúdo
02_Elements/Icons/ArrowLeft Voltar para o Insight
Insights > Mídia

Usando a aprendizagem mecânica para prever as futuras classificações da TV em uma paisagem de mídia em evolução

5 minutos de leitura | Jingsong Cui, VP, e Scott Sereday, Gerente, Data Science, Nielsen | Outubro 2016

Empresas de mídia e anunciantes confiam nas classificações da TV todos os dias para medir o sucesso dos programas de TV, verificar se o tamanho e a composição de sua audiência estão sendo atingidos em relação aos alvos de compra da mídia, e fazer bem no caso de os números serem reduzidos. Desse ponto de vista, as classificações de TV são métricas que medem o passado, ou na melhor das hipóteses o presente, da audiência de TV.

Mas as empresas de mídia também estão usando classificações para prever o futuro. As classificações estabelecem expectativas e afetam as decisões de programação de uma estação para a próxima. Elas também ajudam a definir as taxas de publicidade bem antes de quando uma campanha pode realmente ser transmitida. Nos EUA, por exemplo, as redes de TV vendem a maior parte de seu estoque de anúncios para a temporada no "upfront", um evento que organizam apenas uma vez por ano (entre março e maio). Isto significa que a taxa para os anúncios que você está vendo hoje na TV pode ter sido negociada há mais de um ano.

A fim de prever a classificação de um espetáculo em três, seis ou 12 meses, os pesquisadores estão utilizando modelos de previsão. Muitos desses modelos têm sido usados há anos com pouca ou nenhuma modificação. Eles têm tido sucesso na previsão de classificações e têm feito um grande trabalho de apoio à troca de bilhões de dólares de publicidade a cada ano. Mas as rápidas mudanças no ecossistema da TV estão dificultando cada vez mais o desenvolvimento de modelos confiáveis.

Considere a lista de inovações tecnológicas recentes na indústria de mídia: Os telespectadores estão usando cada vez mais seus laptops, tablets e smartphones para assistir conteúdo; serviços de streaming como Netflix e Amazon Prime alcançaram a adoção em massa; novos dispositivos conectados à TV estão remodelando a experiência da tela grande. As pessoas estão mudando o tempo, assistindo em streaming e binge-eles estão mais no controle da mídia que consomem do que jamais estiveram. Seu comportamento não só é mais complexo, mas também mais imprevisível.

Na Nielsen, temos acesso a muitos recursos de dados que medem como as pessoas consomem a mídia. Antes de adicionar dados da TV digital ao mix (como entrada e saída de nossos modelos de previsão), queríamos examinar se era possível primeiro melhorar a forma como prevíamos as classificações para a TV tradicional, usando os dados da TV tradicional como nossa única fonte. Graças ao Medidor Nacional de Pessoas Nielsen, temos dados de alta qualidade que remontam a muitos anos atrás, com metodologia consistente e um painel robusto de telespectadores representativos nacionalmente.

Aproveitamos estes ricos dados em um nível muito detalhado para criar novos modelos de previsão: Variáveis como as classificações históricas Live+7 (ou seja classificações que incluem audiências ao vivo, bem como telespectadores até sete dias após a transmissão inicial), classificações C3 (classificações comerciais que incluem reprodução até três dias depois), HUT (a porcentagem de residências que usam televisão em qualquer ponto no tempo), alcance, classificações domésticas, classificações demográficas, dia da semana, hora do dia e a identidade da rede são algumas das peças-chave de informação que usamos como variáveis de entrada; e capitalizamos a aprendizagem avançada da máquina e algoritmos estatísticos (como regressão de cumeeira, floresta aleatória e aumento de gradiente) para identificar relações de dados relevantes.

Trabalhando em cooperação com um cliente, realizamos vários estudos de prova de conceito para testar e validar os modelos que criamos. Projetamos nossos modelos para prever futuras classificações em nível granular (blocos de horas para pequenos grupos demográficos, como homens de 2 a 5 anos ou mulheres com mais de 65 anos), mas também fizemos o roll up desses números para o nível da rede. A fim de entender como nossos modelos se saíam contra a realidade, utilizamos um período de espera de dois trimestres para comparar nossas previsões, assim como as previsões internas de nossos clientes com os dados reais de classificação. Por exemplo, previmos com precisão uma classificação média Live+7 de 1,94 para pessoas entre 30-34 na Rede A entre 21h e 22h às terças-feiras durante o segundo trimestre de 2015, com base apenas em dados históricos até o primeiro trimestre de 2014. As previsões eram muito precisas no nível da rede, onde tínhamos um R-quadrado de 99% (percentual de variação explicado), mas eram mais difíceis no nível mais granular de parte do dia por hora, ou para alguns dos grupos demográficos menores. Mesmo no nível de quarteirão horário, porém, nosso modelo R-quadrado ainda superou 95% e superou significativamente um modelo com o qual nosso cliente tinha contado até aquele momento. Em mais de 2.000 projeções diárias, nossas previsões eram 41% mais precisas para o R-quadrado e 16% mais precisas para o erro percentual absoluto ponderado (WAPE) - duas medidas-chave na precisão das previsões.

Compartilharemos mais detalhes sobre esses modelos de prova de conceito e os testes que realizamos em um próximo trabalho. O ponto-chave deste projeto é que conseguimos converter dados comportamentais grandes e ruidosos em características preditivas de modelagem e fazê-lo de uma maneira muito eficiente (e automatizada). Mas cada ponto decimal de um ponto de classificação tem enormes implicações financeiras, e precisamos continuar empurrando o envelope adicionando novas variáveis de entrada (como gastos com anúncios ou dados específicos de programas), construindo maneiras de se adaptar rapidamente às mudanças nos pacotes de programação e linhas de canais, testando novas formas de algoritmos de regressão e classificação, ou mesmo combinando múltiplos modelos promissores em um só.

Embora este projeto se concentre na TV tradicional, é interessante notar que o impacto dos dados digitais se reflete em mudanças nas classificações da TV nos dados históricos e, portanto, também em nossas previsões. Mas esta é uma medida indireta de um efeito cumulativo e nenhum substituto para um modelo que se concentraria especificamente na visualização exagerada, por exemplo, ou na visualização em um aplicativo de smartphone. Além das próximas etapas descritas acima, o uso de dados digitais será um elemento importante para melhorar nossas previsões no futuro.

No final, também precisamos reconhecer que cada cliente tem um conhecimento profundo de seus programas, bem como uma forte intuição sobre como esses programas podem ser recebidos no futuro. Esse "elemento humano" não deve ser ignorado quando montamos modelos de previsão e pode ser especialmente valioso quando reagimos a mudanças significativas e imprevistas no mercado. Um sistema que integra dados ricos, poderosos algoritmos de aprendizagem de máquinas e conhecimento de domínio pode alcançar melhores resultados do que qualquer um deles poderia alcançar por si só.

Tags relacionadas:

Continue navegando por ideias semelhantes