跳到内容
洞察力>电视和流媒体

大数据集的不那么隐蔽的问题

6分钟阅读|Molly Poppie,数据科学高级副总裁,尼尔森|2021年10月

最近,媒体界对测量的未来和大数据的承诺充满了活力和兴奋。在尼尔森,我们长期以来一直了解大数据的价值,事实上,就在上个月,我们宣布了关于如何将大数据添加到我们的国家电视测量服务的更多细节。 

我们也知道,没有一个小组是完美的,过去几个月已经证明了这一点。 

但是,当我们的数据科学家团队听到一些关于大数据来拯救世界和解决行业中所有感知的挑战的大而全的说法时,很难不产生怀疑。

这是因为,尽管大数据有其价值和惊人的潜力,但该行业目前能够获得的大数据集有非常现实的限制。 

最近的一个相关例子

在失去了对尼尔森便携式人群测量仪的使用权之后,Comscore报告说,它现在将使用来自Experian的ConsumerView的数据集,以帮助他们为测量目的识别个别观众。他们的宣布在行业媒体中被视为一种进步--毕竟,如果大数据是未来,任何朝这个方向的转变都必须是一件好事。 

不幸的是,对于他们的客户和消费者来说,情况并非如此。 

现在有少数第三方身份供应商提供基于个人身份信息的数据集匹配能力,并提供直接收集和建模的人口统计特征。 

在尼尔森,我们定期检查这些数据。我们通过直接测量来自我们强大的小组的信息来验证这些数据集在1)正确匹配到一个家庭和2)准确报告人口统计和特征方面的准确性。 

我们通常发现的情况应该让广告商暂停。 

今天,大多数的数据集都是围绕着账单信息或在线行为收集而建立的,而不是人口统计资料。他们没有关于名单上的人到底是谁的丰富细节--从年龄、收入、种族和民族--就像你在一个强大的小组中做的那样。这些数据集,因为它们是通过机器对机器的传输而产生的,也增加了浪费和欺诈的可能性。 

正因为如此,他们能够提供的关于谁实际居住在某一特定家庭的确定性水平是有限的。他们也没有能力说在一个特定的家庭中,谁在一个特定的时间观看一个特定的节目。 

即使你用其他来源的数据进行三角测量,你几乎可以保证你的估计会有巨大的差距和错误。如果使用的是目标,这可能是可以接受的,但这种数据本身并不能提供测量所需的准确性、客观性和透明度。 

为什么重要

那么,这实际上意味着什么呢?嗯,它有几个含义。 

在Comscore从我们的 "个人仪表 "转变的情况下,它实际上是将麦克风安装在约10万个真实的、经过验证的人身上,并准确跟踪他们正在观看的内容、 

如果将这种模式改为使用计费数据来提供一个住宅内谁可能在特定时间观看特定节目的猜测,其结果将是对谁在看什么的解读不太准确。 

但可能更大的影响是,这种转变将使该行业离捕捉到国家的真实代表越来越远。 

我们知道,当居住在那里的人拥有自己的房子并且已经在那里居住了很长时间时,许多这类数据集在提供家庭周围的数据方面做得更好。这也是有道理的。但问题是,长期拥有住房的人往往是更多的白人,更富裕,而且年龄明显大于整个国家。根据设计,这些数据集低估了黑人和棕色人种、低收入人群和年轻人,而此时所有这些人群都在增长,而不是萎缩。 

基于机顶盒数据建立的数据集也是如此,这些数据往往会过度计算愿意为有线电视套餐支付更多费用的富裕消费者,从而不成比例地排除了作为许多营销人员重要目标的低收入消费者。 

媒体行业理所当然地将准确反映黑人和棕色人种的情况作为核心优先事项。在尼尔森,我们在这方面的记录可以追溯到几十年前,并不完美,但今天我们拥有最准确和最先进的关于国家真实情况的观点。 

大数据衍生的测量工具,如果没有一个有代表性的、经过验证和审计的小组支持,就不能提出这样的要求。尼尔森小组可以针对人口普查中的许多人口统计学,其变化率为1%,但目前以大数据为重点的选项甚至还没有达到这个水平。这个行业需要对自己开诚布公,了解大数据在代表性方面带来的挑战。

一个更广泛的问题

要清楚的是,这不仅仅是Comscore的问题。这是目前所有大数据集的一个问题。 

2020年8月,ANA与MRC和Sequent Partners合作,将尼尔森数据作为一项研究的基准,旨在了解多元文化受众在媒体定位中的准确代表程度。该研究对高质量的营销和媒体数据进行了汇总,并试图了解其对黑人、棕色和亚洲受众的准确定位。研究结果令人不安,但对我们来说一点也不奇怪。 

该研究发现,该行业所依赖的大数据集并不能满足准确定位这些关键群体的任务。部分原因是这些数据集的设计并不是为了捕捉关于这些消费者的真实身份的丰富数据,就像强大的面板一样,数据中存在大量的误报和少报现象。 

现在,与尼尔森的强大面板形成对比,它提供了大量从现实生活中的人直接收集的信息,代表了整个美国人口。谁住在家里? 他们的年龄有多大?他们属于什么种族和民族?在某个时间点上,谁在看电视?尼尔森的小组回答了这些问题。 

同样,小组本身并不完美,但其他行业,即制药业,在批准药物时使用类似小组的方法是有原因的。这是因为,当风险很高时,真实的、经过验证的人是无法替代的。  

我们知道,许多行业参与者对大数据的前景感到兴奋,我们也是如此。但作为一个行业,我们需要诚实地对待大数据能够和不能解决的问题。我们也明白,媒体测量的未来是一种将大数据的覆盖面与经过验证的个人数据相结合的方法。

这篇文章最初出现在Next TV上。