媒体公司和广告商每天都要依靠收视率来衡量电视节目的成功与否,验证观众的规模和构成是否符合媒体购买目标,并在收视率不理想时进行补救。从这个角度看,电视收视率是衡量电视收视过去或现在的指标。
但媒体公司也在利用收视率预测未来。收视率设定了人们的期望值,并影响着一季到下一季的节目决策。收视率还有助于在广告活动实际播出之前提前确定广告价格。例如,在美国,电视网络在 "upfront "上出售当季的大部分广告库存,而 "upfront "是电视网络每年仅组织一次的活动(3 月至 5 月)。这意味着,您今天在电视上看到的广告价格可能是一年多以前谈好的。
为了预测节目在 3 个月、6 个月或 12 个月后的收视率,研究人员正在使用预测模型。其中许多模型已使用多年,几乎没有修改。它们在预测收视率方面一直很成功,并为每年数十亿美元的广告费用的交换提供了有力支持。但是,电视生态系统的快速变化使得开发可靠的模型变得越来越困难。
请看媒体行业最近的技术创新清单:观众越来越多地使用笔记本电脑、平板电脑和智能手机观看内容;Netflix 和 Amazon Prime 等流媒体服务已得到大规模普及;新型电视连接设备正在重塑大屏幕体验。人们正在进行时间转换、流媒体和狂欢式观看--他们比以往任何时候都更能掌控自己消费的媒体。他们的行为不仅更加复杂,而且更加难以预测。
在尼尔森,我们可以利用许多数据资源来衡量人们是如何消费媒体的。在加入数字电视数据(作为预测模型的输入和输出)之前,我们想先研究一下,在使用传统电视数据作为唯一来源的情况下,是否有可能改进我们预测传统电视收视率的方法。得益于尼尔森全国收视率调查(Nielsen National People Meter),我们拥有了可追溯多年的高质量数据、一致的方法和强大的全国代表性观众面板。
我们在非常详细的层面上利用这些丰富的数据创建了新的预测模型:历史 Live+7 收视率(即收视率(即包括现场观众以及首次播出后七天内的观众)、C3 收视率(包括播出后三天内的商业收视率)、HUT(在任何时间点使用电视的家庭比例)、到达率、家庭收视率、人口统计收视率、星期几、每天几点以及网络身份等变量都是我们用作输入变量的一些关键信息;我们还利用先进的机器学习和统计算法(如脊回归、随机森林和梯度提升)来识别相关的数据关系。
我们与客户合作开展了多项概念验证研究,以测试和验证我们创建的模型。我们设计的模型可以在细粒度上预测未来的收视率(小人口群体的小时块,如 2-5 岁的男性或 65 岁以上的女性),但我们也将这些数据扩展到网络层面。为了了解我们的模型在现实中的表现,我们使用了两个季度的保留期,将我们的预测以及客户的内部预测与真实的收视率数据进行比较。例如,仅根据截至 2014 年第一季度的历史数据,我们准确预测了 2015 年第二季度 A 电视网 30-34 岁人群在每周二晚 9 点至 10 点的平均 Live+7 收视率为 1.94。在网络层面上,我们的预测非常准确,R 平方(解释的方差百分比)达到了 99%,但在更细化的小时段日段层面上,或者对于一些较小的人口群体来说,预测就比较困难了。不过,即使在小时段层面,我们的模型的 R 平方仍然高达 95%,明显优于客户在此之前一直依赖的模型。在 2000 多项日间预测中,我们的预测在 R 方和加权绝对百分比误差(WAPE)这两项预测准确性的关键指标上分别高出 41% 和 16%。
我们将在即将发表的论文中分享有关这些概念验证模型和测试的更多细节。这个项目的主要收获是,我们能够将庞大而嘈杂的行为数据转化为预测建模功能,而且是以非常高效(和自动化)的方式完成的。但是,收视率的每一个小数点都会产生巨大的财务影响,我们需要通过增加新的输入变量(如广告支出或特定节目数据)、建立快速适应节目包和频道阵容变化的方法、测试新形式的回归和分类算法,甚至将多个有前景的模型合二为一,不断突破极限。
虽然这个项目的重点是传统电视,但值得注意的是,数字数据的影响反映在历史数据中电视收视率的变化上,因此也反映在我们的预测中。但这只是对累积效应的间接测量,并不能取代专门针对超媒体收视或智能手机应用收视的模型。除了以上概述的下一步工作,数字数据的使用将是我们未来改进预测的重要因素。
最后,我们还需要认识到,每个客户都对自己的项目有深入的了解,并对这些项目在未来会受到怎样的欢迎有着强烈的直觉。在建立预测模型时,我们不应忽视 "人的因素",尤其是在对市场中不可预见的重大变化做出反应时,这种因素更有价值。将丰富的数据、强大的机器学习算法和专业领域知识整合在一起的系统,可以取得比任何一方单独完成更好的结果。