Os grandes volumes de dados estão sempre a fazer manchetes, mas o que são exatamente e porque é que são simultaneamente uma dádiva e um potencial impedimento para uma medição precisa das audiências? Analisamos os prós e os contras do big data e as formas de o fazer funcionar.
O que são os grandes dados?
No mundo dos meios de comunicação lineares, os grandes volumes de dados referem-se normalmente a dois tipos de fluxos de dados produzidos pelos próprios sistemas que fornecem a programação aos utilizadores finais: Dados de retorno (RPD) de descodificadores de cabo ou satélite (como Dish ou DirecTV) e reconhecimento automático de conteúdos (ACR) de televisores inteligentes ligados à Internet (como Samsung ou Vizio).


Dados ACR
Em vez de um registo das mudanças de canal, a tecnologia ACR monitoriza as imagens no ecrã da televisão. As imagens funcionam como impressões digitais, que são comparadas com uma grande biblioteca de referência para identificar o que é efetivamente o programa ou o anúncio. As imagens são marcadas com a hora para perceber quando é que a reprodução está a acontecer.
Dados RPD
Regista o canal em que o descodificador está sintonizado e a que horas ocorrem as mudanças de canal. Esses dados podem ser comparados com uma programação de TV para determinar que programa está a ser reproduzido nessa altura específica e com dados dos servidores de anúncios do fornecedor ou dos seus parceiros para descobrir a que publicidade o agregado familiar está exposto.
Em ambos os casos, os utilizadores finais autorizam a recolha de dados nos seus dispositivos. A cooperação é relativamente elevada porque a recolha de dados permite não só fazer medições, mas também obter funcionalidades muito desejadas, como as preferências dos utilizadores e as recomendações de conteúdos. Um conjunto de dados RPD ou ACR pode abranger mais de 30 milhões de dispositivos.
Porque é que os grandes dados são importantes?

Houve uma altura em que as pessoas tinham apenas uma mão-cheia de canais por onde escolher. Um rating1 doméstico superior a 60 (como o final de M*A*S*H em 1983) ou mesmo 40 (como o final de Seinfeld em 1998) é incompreensível para um programa com guião nos dias de hoje. Vivemos num mundo muito mais fragmentado, com uma lista muito, muito longa de opções de programação.
Isto é ótimo para os telespectadores, mas complica as coisas para a investigação baseada em painéis: Num painel nacional com 101 mil pessoas, um programa de televisão com uma classificação de 0,2 será visto por 80 famílias, e talvez apenas uma na área metropolitana de Atlanta ou Dallas. Com dezenas de milhões de dispositivos sob medição, os grandes volumes de dados permitem que as empresas de investigação comuniquem a utilização da televisão a um nível muito mais granular, fornecendo cobertura para muitos mais programas com audiências pequenas e frequentemente diversificadas. Mas, por si só, os grandes volumes de dados nunca foram concebidos para serem utilizados na medição de audiências. Iremos analisar alguns dos prós e contras dos grandes volumes de dados na medição de audiências.
As limitações dos grandes volumes de dados
Desafio n.º 1: Os grandes dados não são representativos
Para transacionar com confiança, os compradores e vendedores de meios de comunicação social precisam de uma solução de medição que reflicta a população em toda a sua diversidade: Todos os grupos etários, raças, etnias e muitas outras caraterísticas demográficas e comportamentais importantes têm de estar presentes e ser proporcionais nos dados subjacentes.
Mas a dimensão não garante a representatividade. Ao analisar as contagens instaladas no painel Nielsen National TV, descobrimos que os lares com RPD são desproporcionadamente mais velhos e menos diversificados em termos raciais do que a população em geral. Os lares hispânicos, por exemplo, estão sub-representados em cerca de 30%, e os chefes de família com menos de 25 anos estão quase totalmente ausentes dos conjuntos de dados RPD. Por outro lado, os conjuntos de dados ACR são mais jovens do que a população em geral e também têm mais membros no agregado familiar. A utilização de ponderação estatística em grandes volumes de dados pode ocultar o problema, mas não pode compensar a ausência de comportamentos de visionamento únicos de públicos sub-representados.
Para piorar a situação, uma solução de medição que se baseasse exclusivamente nos dados RPD e ACR não teria em conta os agregados familiares com transmissão via rádio2 e por streaming, que constituem uma parte crescente do bolo.
Desafio n.º 2: Os grandes volumes de dados podem não captar todo o comportamento de visualização
Mesmo que incluíssem agregados familiares representativos, os conjuntos de dados RPD e ACR não captam a visualização de todos os descodificadores do agregado familiar ou de outros aparelhos de televisão em casa que não sejam smart TVs. Esses aparelhos de televisão adicionais podem reproduzir programas diferentes para membros diferentes da família (como programas de culinária na cozinha ou programas infantis na sala de jogos), pelo que não só os agregados familiares com grandes volumes de dados não são representativos da população, como os próprios grandes volumes de dados não são representativos de todos os visionamentos que podem estar a ocorrer nesses agregados familiares.

Um problema frustrante para as empresas de investigação que dependem do RPD é o facto de o descodificador permanecer frequentemente ligado quando o aparelho de televisão ligado é desligado. Essa sintonia "fantasma" pode exagerar a visualização efectiva entre 145% e 260%, dependendo do fornecedor. Existem modelos que podem ser implementados para compensar este facto, mas sem um ponto de referência - como um painel informado por visualizações reais - pode ser difícil desenvolver a heurística correta.
O ACR também não está imune a problemas de qualidade dos dados. Algumas aplicações de streaming de smart TV impedem o ACR de capturar o conteúdo no ecrã enquanto a aplicação está a ser utilizada. Pode parecer que o televisor está desligado quando, na realidade, o conteúdo foi bloqueado por uma aplicação. E a maioria dos fornecedores monitoriza apenas uma pequena parte de toda a programação disponível. Numa análise recente, descobrimos que os fornecedores de ACR monitorizam atualmente apenas 31% de todas as estações disponíveis e que 23% dos minutos gravados ainda provêm de estações que não são monitorizadas. Sem impressões digitais de referência para comparação, essa visualização não é registada.
Desafio n.º 3: Os grandes volumes de dados não contêm dados demográficos dos espectadores
Os fornecedores de RPD e ACR captam dados de sintonização de milhões de dispositivos, mas não sabem quem está a ver, que é o que os anunciantes pedem em última análise.
Uma forma de colmatar essa lacuna é estabelecer uma parceria com fornecedores demográficos terceiros. Essas empresas mantêm um registo da composição demográfica de todos os agregados familiares do país, e uma empresa de investigação pode tentar modelar quem está a ver o quê simplesmente a partir da soma total dos dados de sintonização num determinado agregado familiar e da composição demográfica desse agregado.
Um programa para crianças? Deve ser de uma criança lá em casa. Um combate de wrestling? Deve ser de um espetador do sexo masculino. Sem um ponto de referência da vida real para ajudar o algoritmo de aprendizagem automática, é fácil ver onde este tipo de modelação pode falhar. Sem surpresa, torna-se progressivamente menos fiável com o tamanho do agregado familiar, o que acaba por prejudicar a exatidão dos dados para famílias maiores, como as que têm crianças, espectadores não brancos e mais jovens.
As vantagens dos dados de painel
Para as marcas e empresas de comunicação social que procuram uma solução de medição de audiências estável e fiável, os desafios acima descritos são incontornáveis. Os dados de painel são essenciais para ultrapassar essas limitações.
Na Nielsen, quando analisamos os dados RPD ou ACR, conseguimos identificar que lares e dispositivos fazem parte dos nossos painéis e comparar os dados de sintonização nesses lares com o comportamento de visualização captado pelos nossos contadores. Ao utilizar os nossos painéis como fonte de verdade nesses lares, podemos identificar onde é que o big data se desvia da verdade e desenvolver modelos robustos para ajustar essas anomalias.
Por exemplo, desenvolvemos uma metodologia para determinar a localização de um dispositivo dentro de uma casa e fazer corresponder os seus dados de sintonia a espectadores específicos. Outro modelo ajuda-nos a determinar se um aparelho de televisão está desligado enquanto o descodificador está ligado. Ainda outro modelo pode classificar as actualizações de dispositivos registadas como sintonização extra, bem como as situações em que um dispositivo devolve mais do que um evento de sintonização ao mesmo tempo.
Pessoas, não dispositivos

Em última análise, a pesquisa de audiências tem a ver com pessoas, não com dispositivos.
Não há dúvida de que os grandes volumes de dados são um ótimo complemento para o arsenal do investigador dos meios de comunicação social. Abre a porta a reportagens mais granulares do que alguma vez foi possível no passado. Mas é inerentemente defeituoso, tendencioso e, mais fundamentalmente, míope: Capta dados de sintonização, não dados de visualização.
Para realizar o seu potencial, precisa de ser limpo, preenchido, calibrado e enriquecido com dados demográficos relevantes. É aí que entram os dados de painel. A aprendizagem automática funciona melhor com dados de formação e validação sólidos, e não há melhores dados de formação no sector do que os dados de painel representativos a nível nacional que estão no centro do atual negócio de investigação dos meios de comunicação.
Nielsen's Necessidade de Saber analisa os fundamentos da medição de audiências e desmistifica os tópicos mais quentes da indústria dos media. Leia todos os artigos aqui.
Nota
1 Uma classificação por agregado familiar é a percentagem de todos os agregados familiares do país sintonizados num determinado programa.
2 Programação disponível através de um "sinal" de uma antena. As emissões over the air (OTA) foram o primeiro tipo de televisão disponível.