近来,媒体界对测量的未来和大数据的前景充满热情和期待。事实上,就在上个月,我们刚刚宣布了有关如何将大数据添加到我们的全国电视测量服务中的更多细节。
我们也知道,正如过去几个月所表明的那样,没有一个小组是完美无缺的。
但是,当我们的数据科学家团队听到一些大而无当的说法,说什么大数据将拯救世界并解决行业中的所有挑战时,我们很难不对此持怀疑态度。
这是因为,尽管大数据具有巨大的价值和惊人的潜力,但业界目前所能获得的大数据集却有非常现实的局限性。
最近的一个相关例子
Comscore 公司在失去使用尼尔森公司的便携式人流量计量器的权利后,报告说它现在将使用益百利公司 ConsumerView 的数据集来帮助他们识别用于测量目的的单个观众。行业媒体将他们的声明视为一种进步--毕竟,如果大数据是未来的趋势,那么朝这个方向的任何转变都一定是好事。
不幸的是,对于他们的客户和消费者来说,情况并非如此。
目前有一些第三方身份供应商能够根据个人身份信息对数据集进行匹配,并提供直接收集和模拟的人口特征。
在尼尔森,我们定期检查这些数据。我们直接测量来自我们强大面板的信息,以验证这些数据集在以下方面的准确性:1)正确匹配家庭;2)准确报告人口统计数据和特征。
我们的典型发现应引起广告商的警惕。
目前,大多数数据集都是围绕账单信息或在线行为收集建立的,而不是人口统计学特征。它们并不像强大的面板那样,拥有关于名单上具体是哪些人(从年龄、收入到种族和民族)的丰富细节。由于这些数据集是通过机器对机器的传输创建的,因此也增加了浪费和欺诈的可能性。
正因为如此,他们所能提供的关于特定家庭实际居住者的确定性是有限的。他们也无法说明特定家庭中的哪些人在特定时间观看了特定节目。
即使将这些数据与其他来源的数据进行三角测量,也几乎可以保证在估算中存在巨大的差距和误差。如果使用案例是针对目标,这也许是可以接受的,但这些数据本身并不能提供测量所需的准确性、客观性和透明度。
为什么重要
那么,这实际上意味着什么呢?它有几个方面的含义。
Comscore 的 "Personal People Meters "实际上是将麦克风安装在约 10 万名经过验证的真人身上,并准确跟踪他们正在观看的内容、
如果使用一个使用计费数据的模型来推测住宅内哪些人可能在特定时间观看特定节目,那么结果将是对哪些人在观看什么节目的解读不够准确。
但更大的影响可能是,这种转变将使电影业进一步偏离对国家真实情况的捕捉。
我们知道,许多此类数据集都能更好地提供住户数据,因为住户拥有自己的住房,并且已经在那里居住了很长时间。这也在情理之中。但问题在于,长期拥有住房的人往往更多是白人,更加富裕,年龄也明显高于全国人口。根据设计,这些数据组对黑人和棕色人种、低收入人群和年轻人的统计不足,而所有这些人群都在增长,而不是萎缩。
根据机顶盒数据建立的数据集也是如此,这些数据集往往过多地计算了愿意为有线电视套餐支付更多费用的富裕消费者,因此不成比例地排除了低收入消费者,而他们正是许多营销人员的重要目标。
媒体行业理所当然地将准确反映黑人和棕色人种群体作为重中之重。在尼尔森,几十年来我们在这方面的记录并不完美,但今天,我们拥有最准确、最先进的国家真实面貌。
由大数据衍生出来的测量工具,如果没有一个具有代表性、经过验证和审计的小组作为后盾,是无法实现这一目标的。尼尔森调查小组可以针对人口普查中的许多人口统计特征进行调查,其变异率仅为 1%,但现有的以大数据为重点的方案甚至都达不到这一水平。对于大数据在代表性方面带来的挑战,业界需要开诚布公。
更广泛的问题
说白了,这不仅仅是 Comscore 的问题。这是目前所有大数据集都存在的问题。
2020 年 8 月,ANA 与 MRC 和 Sequent Partners 合作,将尼尔森数据作为一项研究的基准,旨在了解媒体定位中多元文化受众的准确程度。这项研究对高质量的营销和媒体数据进行了汇总,试图了解这些数据对黑人、棕色人种和亚裔受众的准确定位程度。研究结果令人担忧,但并不出乎我们的意料。
研究发现,该行业所依赖的大数据集无法完成准确定位这些关键群体的任务。部分原因是这些数据集在设计上并不像强大的面板那样能够捕捉到关于这些消费者真实身份的丰富数据,因此数据中存在严重的失实和代表性不足现象。
尼尔森强大的调查小组直接从现实生活中收集了大量信息,这些信息代表了整个美国人口。谁住在家里? 年龄多大?他们属于哪个种族?谁在某个时间点看电视?尼尔森的小组回答了这些问题。
再说一遍,专家小组本身并不完美,但其他行业(即制药业)在审批药品时使用与专家小组类似的方法是有原因的。这是因为,当事关重大时,真实、经过验证的人是无可替代的。
我们知道,许多业内人士都对大数据的前景感到兴奋,我们也一样。但作为一个行业,我们需要坦诚地认识到大数据能解决什么问题,不能解决什么问题。我们也明白,媒体测量的未来是一种将大数据的覆盖范围与经过验证的个人数据相结合的方法。
本文最初出现在Next TV 上。