媒体公司和广告商每天都依赖电视收视率来衡量电视节目的成功,验证他们的观众人数和构成是否达到了媒体购买的目标,并在数字不足时进行补救。从这个角度来看,电视收视率是衡量电视收视的过去,或者最好是现在的指标。
但媒体公司也在利用收视率来预测未来。收视率设定了人们的期望,并影响到从一季到下一季的节目决定。它们还有助于在广告活动可能实际播出之前提前设定广告费。例如,在美国,电视网络在 "前期 "出售本季的大部分广告库存,这是他们每年只组织一次的活动(3月至5月之间)。这意味着,你今天在电视上看到的广告费可能是在一年多以前谈妥的。
为了预测一个节目在3个月、6个月或12个月后可能的收视率,研究人员正在使用预测模型。其中许多模型已经使用了多年,几乎没有修改。它们在预测收视率方面一直很成功,并且在支持每年数十亿广告费的交换方面做得很好。但是,电视生态系统的快速变化正在使开发可靠的模型变得越来越困难。
考虑一下最近媒体行业的技术创新清单:观众越来越多地使用他们的笔记本电脑、平板电脑和智能手机来观看内容;Netflix和Amazon Prime等流媒体服务已被大量采用;新的与电视连接的设备正在重塑大屏幕的体验。人们正在进行时间转移、流媒体和狂欢,他们比以往任何时候都更能控制他们所消费的媒体。他们的行为不仅更加复杂,而且也更加不可预测。
在尼尔森,我们可以获得许多数据资源来衡量人们如何消费媒体。在将数字电视数据加入到我们的组合中之前(作为我们预测模型的输入和输出),我们想研究是否有可能首先改善我们对传统电视收视率的预测,将传统电视数据作为我们的唯一来源。感谢尼尔森全国人民测量仪,我们有高质量的数据,可以追溯到很多年前,有一致的方法和一个强大的全国代表性的观众小组。
我们在一个非常详细的层面上挖掘了这些丰富的数据,以创建新的预测模型:变量如历史上的Live+7收视率(即、历史收视率(即包括现场观众以及首次播出后七天内的观众)、C3收视率(包括播出后三天内的商业收视率)、HUT(在任何时间点使用电视的家庭百分比)、覆盖率、家庭收视率、人口统计学收视率、星期几、每天的时间以及网络身份等变量是我们用作输入变量的一些关键信息;我们利用先进的机器学习和统计算法(如岭回归、随机森林和梯度提升)来确定相关数据关系。
在与客户的合作中,我们进行了一些概念验证研究,以测试和验证我们创建的模型。我们设计了我们的模型来预测未来的收视率(小的人口群体的小时块,如2-5岁的男性或65岁以上的女性),但我们也将这些数字滚动到网络层面。为了了解我们的模型在现实中的表现,我们使用了两个季度的暂停期,将我们的预测以及客户的内部预测与真实的收视率数据进行比较。例如,我们仅根据截至2014年第一季度的历史数据,准确预测了2015年第二季度周二晚上9点至10点之间A网30-34岁人群的平均Live+7收视率为1.94。在网络层面的预测非常准确,我们有99%的R-squared(解释方差的百分比),但在更细化的小时块日间时段层面,或对一些较小的人口群体的预测则更加困难。即使是在小时段层面,我们的模型的R平方仍然超过了95%,并大大超过了我们的客户一直以来所依赖的模型。在2000多个日间预测中,我们的预测在R-squared方面准确度提高了41%,在加权绝对百分比误差(WAPE)方面准确度提高了16%--这是预测准确性的两个关键指标。
我们将在即将发表的论文中分享关于这些概念验证模型和我们进行的测试的更多细节。这个项目的关键收获是,我们能够将大而嘈杂的行为数据转化为预测性的建模特征,并以非常有效(和自动化)的方式完成。但是,每一个评分点的小数点都有巨大的财务影响,我们需要不断地推陈出新,增加新的输入变量(如广告支出或特定的节目数据),建立快速适应节目包和频道阵容变化的方法,测试新形式的回归和分类算法,甚至将多个有前途的模型合并为一个。
虽然这个项目专注于传统电视,但有趣的是,数字数据的影响反映在历史数据中电视收视率的变化上,因此也反映在我们的预测中。但这是对累积效应的间接测量,并不能替代专门关注过度观看的模型,例如,通过智能手机应用程序观看。除了上述的下一步,数字数据的使用将是改善我们未来预测的一个重要因素。
最后,我们还需要认识到,每个客户都对其项目有深入的了解,以及对这些项目在未来可能被接受的强烈直觉。当我们把预测模型放在一起时,这种 "人的因素 "不应该被忽视,在对市场的重大和不可预见的变化做出反应时,这种因素尤其有价值。一个整合了丰富的数据、强大的机器学习算法和领域专业知识的系统可以取得比任何一个人单独完成的更好的结果。