Ultimamente, tem havido muita energia e entusiasmo nos círculos de mídia sobre o futuro da medição e a promessa do big data. Na Nielsen, há muito tempo entendemos o valor do big data; na verdade, no mês passado, anunciamos detalhes adicionais sobre como estamos adicionando-o ao nosso serviço nacional de medição de TV.
Também sabemos que nenhum painel é perfeito, como os últimos meses demonstraram.
Mas quando nossas equipes de cientistas de dados ouvem algumas das grandes e abrangentes afirmações sobre o big data que virá para salvar o dia e resolver todos os desafios percebidos no setor, é difícil não ficar cético.
Isso se deve ao fato de que, apesar de todo o seu valor e de seu incrível potencial, os conjuntos de big data aos quais o setor tem acesso atualmente têm limitações muito reais.
Um exemplo recente relevante
Depois de perder o acesso aos medidores portáteis de pessoas da Nielsen, a Comscore informou que agora usará conjuntos de dados do ConsumerView da Experian para ajudá-los a identificar espectadores individuais para fins de medição. O anúncio foi apresentado na imprensa especializada como um avanço - afinal, se o big data é o futuro, qualquer mudança nessa direção deve ser positiva.
Infelizmente, para seus clientes e para os consumidores, esse não é o caso.
Existem alguns fornecedores de identidade terceirizados que oferecem a capacidade de combinar conjuntos de dados com base em informações de identificação pessoal e fornecer características demográficas, tanto coletadas diretamente quanto modeladas.
Na Nielsen, verificamos regularmente esses dados. Fazemos isso medindo diretamente as informações de nossos painéis robustos para validar a precisão desses conjuntos de dados em 1) correspondência correta com um domicílio e 2) relatório preciso de dados demográficos e características.
O que normalmente encontramos deve fazer com que os anunciantes parem para pensar.
A maioria dos conjuntos de dados existentes atualmente foi criada com base em informações de faturamento ou coleta de comportamento on-line, e não em perfis demográficos. Eles não têm os detalhes detalhados sobre quem exatamente são as pessoas em suas listas, desde a idade até a renda, a raça e a etnia, como acontece com um painel robusto. Esses conjuntos de dados, por serem criados por transferências de máquina para máquina, também aumentam a possibilidade de desperdício e fraude.
Por isso, o nível de certeza que eles podem fornecer sobre quem realmente mora em uma determinada residência é limitado. E eles não têm capacidade de dizer quem, em uma determinada residência, está assistindo a um determinado programa em um horário específico.
Mesmo quando você triangula esses dados com outras fontes, é quase certo que haverá grandes lacunas e erros em suas estimativas. Isso pode ser aceitável se o caso de uso for a segmentação, mas esses dados, por si só, não oferecem a precisão, a objetividade e a transparência necessárias para fornecer medições.
Por que é importante
Então, o que isso significa na prática? Bem, isso tem algumas implicações.
No caso da mudança da Comscore em relação aos nossos Medidores Pessoais de Pessoas, que na verdade colocam microfones em cerca de 100.000 pessoas reais e verificadas e rastreiam exatamente o que elas estão assistindo,
para um modelo que usa dados de faturamento para fornecer estimativas de quem, em uma residência, pode estar assistindo a um determinado programa em um determinado momento, o resultado será uma leitura menos precisa de quem está assistindo o quê.
Mas a implicação possivelmente maior é que essa mudança fará com que o setor se distancie ainda mais da captura de uma verdadeira representação do país.
Sabemos que muitos desses tipos de conjuntos de dados fazem um trabalho melhor ao fornecer dados sobre residências quando as pessoas que moram lá são donas de suas próprias casas e estão lá há muito tempo. E isso é lógico. O problema com isso é que os proprietários de imóveis há muito tempo tendem a ser mais brancos, mais ricos e significativamente mais velhos do que a nação como um todo. Por definição, esses conjuntos de dados subestimam os negros e pardos, as pessoas de baixa renda e os jovens, em um momento em que todos esses segmentos estão crescendo, e não diminuindo.
O mesmo se aplica aos conjuntos de dados criados a partir de dados de decodificadores, que tendem a contar em excesso os consumidores mais abastados que estão dispostos a pagar mais por pacotes de TV a cabo e, portanto, excluem desproporcionalmente os consumidores de renda mais baixa, que são alvos importantes para muitos profissionais de marketing.
O setor de mídia, com razão, fez da representação precisa das comunidades negras e pardas uma prioridade central. Na Nielsen, nosso histórico de décadas nesse sentido não foi perfeito, mas hoje temos a visão mais precisa e avançada da nação como ela realmente é.
As ferramentas de medição derivadas de big data que não são respaldadas por um painel representativo, validado e auditado não podem fazer essa afirmação. Os painéis da Nielsen podem visar a muitos dados demográficos dentro do censo com uma variabilidade de 1%, mas as opções focadas em big data disponíveis no mercado não chegam nem perto disso. O setor precisa ser aberto e honesto consigo mesmo sobre os desafios que o big data apresenta quando se trata de representação.
Um problema mais amplo
Para deixar claro, esse não é um problema exclusivo da Comscore. Esse é um problema com todos os conjuntos de big data existentes atualmente.
Em agosto de 2020, a ANA, em parceria com o MRC e a Sequent Partners, usou os dados da Nielsen como referência em um estudo desenvolvido para entender o grau em que os públicos multiculturais estavam sendo representados com precisão na segmentação de mídia. O estudo analisou uma coleção agregada de dados de marketing e mídia de alta qualidade e procurou entender a precisão da segmentação de públicos negros, pardos e asiáticos. As descobertas foram preocupantes, mas não surpreendentes para nós.
O estudo constatou que os conjuntos de big data nos quais o setor se baseia não estavam à altura da tarefa de direcionar com precisão essas comunidades críticas. Em parte porque os conjuntos de dados não foram projetados para capturar dados ricos sobre quem realmente são esses consumidores, da mesma forma que os painéis robustos, houve uma deturpação e sub-representação desenfreada nos dados.
Agora compare isso com os painéis robustos da Nielsen, que fornecem uma grande quantidade de informações coletadas diretamente de pessoas reais, representativas de toda a população dos EUA. Quem mora na casa? Qual é a sua idade? De que raça e etnia se identificam? Quem está assistindo à televisão em um determinado momento? O painel da Nielsen responde a essas perguntas.
Mais uma vez, os painéis por si só não são perfeitos, mas há um motivo pelo qual outros setores, principalmente o farmacêutico, usam abordagens semelhantes aos painéis na aprovação de medicamentos. Isso se deve ao fato de que, quando os riscos são altos, não há substituto para pessoas reais e verificadas.
Sabemos que muitos participantes do setor estão entusiasmados com a promessa do Big Data, e nós também estamos. Mas, como setor, precisamos ser honestos sobre o que o big data pode e não pode resolver. E nós também entendemos que o futuro da medição de mídia é uma abordagem que combina o alcance do big data com os dados pessoais verificados de painéis robustos.
Este artigo foi publicado originalmente na Next TV.