メディア企業や広告主は、テレビ番組の成功を測定し、視聴者の規模や構成がメディア・バイの目標に達しているかどうかを検証し、数字が足りなくなった場合の埋め合わせをするために、日々テレビの視聴率を頼りにしている。その観点からすれば、テレビ視聴率はテレビ視聴の過去、あるいはせいぜい現在を測定する指標である。
しかし、メディア企業は視聴率を将来の予測にも利用している。視聴率は期待値を設定し、シーズンごとの番組決定に影響を与える。視聴率はまた、キャンペーンが実際に放送される時期よりもかなり前に広告料金を設定するのにも役立つ。例えば米国では、テレビネットワークは年に一度(3月から5月にかけて)開催される「アップフロント」というイベントで、そのシーズンの広告在庫の大半を販売する。つまり、あなたが今テレビで見ている広告の料金は、1年以上前に交渉されたものかもしれないのだ。
番組の視聴率が3ヶ月後、6ヶ月後、12ヶ月後にどうなっているかを予測するために、研究者たちは予測モデルを使用している。これらのモデルの多くは、ほとんど修正されることなく何年も使われてきた。彼らは視聴率の予測に成功し、毎年何十億ドルもの広告費のやり取りを支えてきた。しかし、テレビのエコシステムの急速な変化によって、信頼できるモデルを開発することがますます難しくなっている。
メディア業界における最近の技術革新を考えてみよう:NetflixやAmazon Primeのようなストリーミング・サービスが大量に普及し、新しいテレビ接続デバイスが大画面での視聴体験を再構築している。人々は、タイムシフト、ストリーミング、ビンジ・ウォッチをしており、これまで以上に消費するメディアをコントロールしている。彼らの行動はより複雑になっているだけでなく、より予測不可能になっている。
ニールセンでは、人々がどのようにメディアを消費するかを測定する多くのデータリソースにアクセスすることができる。デジタルTVのデータを(予測モデルの出力としてだけでなく、入力としても)ミックスに加える前に、まず、従来のTVのデータを唯一のソースとして、従来のTVの視聴率を予測する方法を改善することが可能かどうかを検証したいと考えました。ニールセン・ナショナル・ピープル・メーター(Nielsen National People Meter)のおかげで、私たちは何年も前にさかのぼり、一貫した方法論と全国的に代表的な視聴者の強固なパネルを持つ高品質のデータを手に入れることができた。
私たちは、この豊富なデータを非常に詳細なレベルで活用し、新しい予測モデルを作成した:過去のLive+7視聴率(ライブ視聴者と初回放送から7日後までの視聴者を含む視聴率、過去のLive+7視聴率(ライブ視聴者と初回放送から7日後までの視聴者を含む視聴率)、C3視聴率(3日後までの再生を含むCM視聴率)、HUT(任意の時点でテレビを使用している世帯の割合)、リーチ、世帯視聴率、人口統計学的視聴率、曜日、時間帯、ネットワークのアイデンティティなどの変数は、入力変数として使用した重要な情報の一部である。
クライアントと協力して、私たちは作成したモデルをテストし検証するために、多くの概念実証研究を実施しました。私たちは、将来の視聴率を細かいレベル(2~5歳の男性や65歳以上の女性など、小さな人口統計グループの1時間ブロック)で予測するモデルを設計しましたが、その数字をネットワーク・レベルまでロールアップすることも行いました。私たちのモデルが現実に対してどのように機能したかを理解するため、2四半期のホールドアウト期間を使い、私たちの予測とクライアントの社内予測を実際の視聴率データと比較しました。例えば、我々は2014年第1四半期までの過去のデータのみに基づいて、2015年第2四半期の火曜日の午後9時から午後10時までのネットワークAの30-34歳の平均視聴率Live+7を1.94と正確に予測した。予測はネットワークレベルでは非常に正確で、99%のR2乗(分散を説明した割合)を示したが、より細かい時間ブロックの曜日パートレベルや、より小さな人口統計グループの一部ではより困難だった。しかし、1時間ブロックのレベルでも、我々のモデルのR2乗は95%を超え、クライアントがそれまで頼りにしていたモデルを大幅に上回りました。2,000を超える日中の予測において、当社の予測はR2乗で41%、加重絶対誤差(WAPE)で16%精度が向上しました。
ニールセンについて これらの概念実証モデルと実施したテストの詳細については、次回の論文で紹介する。このプロジェクトの重要な収穫は、大きくてノイズの多い行動データを予測モデリング機能に変換し、それを非常に効率的な(自動化された)方法で行うことができたということです。しかし、視聴率の小数点以下は莫大な財務的影響を持つため、新しい入力変数(広告費や番組固有のデータなど)を追加したり、番組パッケージやチャンネルラインナップの変更に素早く適応する方法を構築したり、新しい形式の回帰や分類アルゴリズムをテストしたり、あるいは複数の有望なモデルを1つにまとめたりして、限界に挑戦し続ける必要がある。
このプロジェクトでは従来のテレビに焦点を当てたが、デジタルデータの影響が過去のデータにおけるテレビ視聴率の変化に反映されており、したがって我々の予測にも反映されていることは興味深い。しかし、これは累積効果の間接的な測定であり、例えば、オーバー・ザ・トップ視聴やスマートフォンアプリでの視聴に特化したモデルの代替にはならない。以上のような次のステップに加えて、デジタルデータの活用は、今後の予測を改善するための重要な要素となるだろう。
最終的には、各クライアントが自社のプログラムについて深い知識を持っていること、そしてそれらのプログラムが将来どのように受け止められるかという強い直感(ニールセンについて )を持っていることも認識する必要がある。この "人間の要素 "は、予測モデルを構築する際に無視されるべきではなく、特に、市場における重大かつ予期せぬ変化に対応する際に貴重なものとなる。豊富なデータ、強力な機械学習アルゴリズム、分野の専門知識を統合したシステムは、どちらか一方だけでは達成できない、より優れた結果を達成することができる。