Retour à l'envoyeur : Comment les Big Data peuvent à elles seules être biaisées et non représentatives

À l'heure de la fragmentation des appareils et de l'audience, il est clair que chaque spectateur est un consommateur potentiel important, même si la personnalisation de sa consommation de contenu, ainsi que du contenu lui-même, est beaucoup plus granulaire.

Il est essentiel pour le secteur de pouvoir mesurer de manière à représenter équitablement toutes les races, tous les âges, toutes les ethnies et tous les comportements, afin de pouvoir effectuer des transactions en toute confiance. C'est aussi le seul moyen de s'assurer que les choix de contenu reflètent la diversité de la communauté d'une station donnée.

Qu'il s'agisse de programmateurs cherchant à découvrir la composition de la diversité réelle de leur public pour prendre des décisions en matière de programmation, d'annonceurs cherchant à atteindre des segments spécifiques avec des messages précis ou de propriétaires de médias faisant plus d'efforts pour l'inclusion à l'écran en faisant des castings avec la diversité à l'esprit, tous les opérateurs de l'industrie ont un impératif commercial de savoir quelle est la composition réelle du public. C'est pourquoi il est essentiel que les données de mesure sur lesquelles ils s'appuient soient pleinement représentatives du riche pastiche de la population américaine. Aucun groupe ne doit être sciemment ou inconsciemment exclu ou sous-représenté.

En bref, il n'existe plus de téléspectateurs ou de réseaux "de niche", et aucun public ne devrait être laissé pour compte en raison de processus de mesure qui ne les prennent pas en compte ou, pire, qui ne les considèrent même pas. En matière de mesure, l'inclusion est un impératif et non une option.

Et si le big data présente de nombreux avantages, il présente également des inconvénients si les entreprises ne le traitent pas de manière responsable. Il est essentiel d'adopter une approche qui exploite les atouts de ces données, par exemple en assurant la stabilité des mesures dans un environnement de visionnage très fragmenté, avec une véritable mesure au niveau des personnes. En d'autres termes, le big data en tant que ressource autonome ne permet pas de comprendre pleinement la dynamique de l'audience.

Une récente analyse de Nielsen a examiné comment les données massives (big data), construites sans tenir compte de la représentation, pourraient obscurcir ce que sont ces véritables audiences en raison de biais inhérents, car les données incluaient des personnes SANS décodeur, des personnes qui exploitent les signaux hertziens (OTA) et qui diffusent du contenu over-the-top (OTT) pour regarder des programmes télévisés de qualité.

Plus précisément, l'analyse a cherché à comprendre les différences de mesure d'audience entre les données de parcours de retour (RPD) - les foyers qui disposent de décodeurs capables de renvoyer des données - et les foyers avec des données de téléspectateurs qui ont été calibrées sur la base du panel de téléspectateurs de Nielsen. L'analyse a révélé que les données RPD non calibrées, qui utilisent des méthodes de pondération douteuses, sous-estiment l'audience des minorités et sont intrinsèquement biaisées. Les comparer à des données de "recensement" est un acte de foi méthodologique.

Après tout, les Américains n'abordent plus leurs besoins en matière de programmation vidéo de la même manière. Certains n'ont pas les moyens d'acheter du contenu de divertissement de qualité ; d'autres optent pour la programmation OTA en raison de l'amélioration de la technologie numérique. Les progrès technologiques généralisés ont également favorisé une croissance constante des foyers équipés uniquement d'une connexion à large bande (BBO). La combinaison des foyers OTA et BBO a augmenté aux États-Unis, passant de 15 millions de foyers en 2014 à près de 28 millions de foyers en 2018. Si l'on tient compte du fait que 41 % des consommateurs de ces 28 millions de foyers sont multiculturels (hispaniques, afro-américains ou asiatiques) et que 10 % sont des jeunes (18-24 ans), il est évident qu'un échantillon RPD sous-représenterait considérablement ces publics et fausserait la mesure de l'audience totale.

Les données relatives à la capacité de la SPR sous-représentent systématiquement les foyers hispaniques et afro-américains par rapport à d'autres types de foyers. Par rapport aux estimations officielles du recensement américain et au panel national représentatif de Nielsen, les foyers compatibles avec la SPR sous-représentent les Hispaniques de 33 %, les Hispaniques de langue espagnole dominante de 49 % et les Afro-Américains de 34 %. Si l'on compare les foyers compatibles avec la SPR aux foyers OTA/BBO, la disparité de représentation est encore plus grande. Les mesures compatibles avec la SPR sous-représentent les Hispaniques de 50 %, les Hispaniques à dominante hispanophone de 68 % et les Afro-Américains de 38 %. La pondération seule ne résout pas ce problème, et le fait que des millions de foyers SPR soient comptabilisés n'a pas d'importance. Un grand échantillon biaisé reste biaisé.

Et ces sources ne s'adressent pas uniquement aux publics multiculturels.

Du point de vue de l'âge, les données compatibles avec la SPR sous-représentent les groupes démographiques les plus jeunes et sur-représentent les groupes les plus âgés. Par exemple, les consommateurs âgés de 25 à 34 ans sont sous-représentés de 26 %, tandis que les personnes âgées de 50 ans et plus sont en fait surreprésentées de 15 %. Qu'en est-il de la démo clé des 18-34 ans ? Le panel national de Nielsen et les données du recensement montrent également qu'il y a 69,8 millions d'adultes de 18 à 34 ans dans les foyers TV en décembre 2018. Cette démo mène la révolution du cord-cutting et représente la plus grande part des cord-cutters par démo. Mais les foyers compatibles avec la SPR sont 17% moins susceptibles de typifier les adultes 18-34 avec précision qu'un panel représentatif.

En sous-estimant les adultes de 18 à 34 ans, les spécialistes du marketing, les propriétaires de médias et tous ceux qui se trouvent entre les deux ont moins de personnes à atteindre s'ils s'appuient uniquement sur les données de la SPR. La pondération pour cette question peut cacher le problème inhérent aux données SPR, mais elle ne résoudra pas le problème et ne permettra pas de découvrir les comportements d'écoute uniques de ces publics. Les foyers SPR ne représentent pas l'audience des foyers non SPR. Des enquêtes en ligne occasionnelles réalisées toutes les quelques années et appliquées à des enregistrements quotidiens complexes sont un moyen bon marché et négligent de donner l'impression que quelque chose a été corrigé.

Un examen des consommateurs qui appartiennent au groupe RPD, à un groupe non compatible avec le RPD (ce qui signifie que ces consommateurs peuvent avoir un décodeur qui ne renvoie pas les données) et au groupe OTA/BBO en pleine croissance révèle des différences marquées dans leurs comportements et leurs modes de vie. C'est une chose que l'on ne peut glaner que par l'observation directe, quelle que soit la pondération effectuée et quelle que soit la taille des données d'entrée du big data, qu'il s'agisse d'un échantillon de 30 millions, d'un milliard ou d'un trillion.

Qu'est-ce que cela signifie pour la programmation réelle qui est alimentée par des publics multiculturels ? Cela signifie que toutes les sources doivent être prises en compte et que tous les types de publics doivent être observés afin d'être pris en compte et calibrés avec n'importe quel ensemble de données.

Par exemple, une émission comme Empire de Fox, où la composition du public est principalement multiculturelle, l'analyse a révélé que ces audiences étaient tout sauf " de niche ", compte tenu de l'histoire de l'émission en tant que programme proche du sommet des classements. En fait, les publics diversifiés représentaient 75 % d'Empire en décembre 2018 et ces publics ont certainement contribué au succès des cotes d'écoute en utilisant un panel représentatif.

Mais en raison de son biais inhérent de sous-représentation, ces publics multiculturels n'ont pas été reflétés de manière équitable, ce qui entraîne des sous-comptes significatifs du public d'Empire lorsque l'on examine cette émission sous l'angle de la SPR. Les différences sont assez importantes. Si l'on considère le classement parmi les téléspectateurs âgés de 25 à 54 ans, Empire s'est classée 16e en utilisant le panel représentatif de Nielsen, mais a chuté à 38 dans les foyers de la SPR. Inversement, Empire s'est classé troisième parmi les foyers OTA, ce qui, bien que peu surprenant car ces foyers sont plus diversifiés, démontre la nature critique de l'inclusion de ces foyers et de la mesure précise de leur comportement dans n'importe quel échantillon.

En fin de compte, trouver une approche qui s'appuie sur une mesure qui n'est pas complète, précise et inclusive et les éléments fondamentaux et le principe de base de l'inclusion pourraient être compromis. Le fait d'exclure par définition ces téléspectateurs "de niche" et leurs comportements peut avoir des conséquences considérables qui pourraient déstabiliser le marché - et les spécialistes du marketing - par des informations erronées et peut-être même faire reculer l'inclusion à l'écran.

Retour à l'envoyeur : Comment les Big Data peuvent à elles seules être biaisées et non représentatives

Poursuivre la recherche d'informations similaires

Marketing générationnel : Pourquoi les spécialistes du marketing ne doivent pas négliger l'âge dans le paysage médiatique actuel

Stratégies gagnantes pour les annonceurs du commerce de détail

Le dossier : Tendances de l'écoute audio aux États-Unis au premier trimestre

Nos produits peuvent vous aider, vous et votre entreprise

Impact sur les médias

Commspoint

Ad Intel

Trouvez la bonne solution pour votre entreprise

Comment pouvons-nous vous aider ?