インサイト

ビッグデータの隠れた問題点
ニュース

ビッグデータの隠れた問題点

メディア関係者の間では昨今、計測の未来とビッグデータの可能性に話題が盛り上がりを見せています。ニールセンは以前からビッグデータの価値を理解しており、先月、米国の全国テレビ視聴率サービスをビッグデータで補強する動きに関する追加情報を発表したばかりです。 

過去数か月の出来事が示すように、ニールセンは完璧な測定パネルが存在しないことを理解しています。

しかし、ビッグデータをメディア業界が直面する課題を解決する「救世主」扱いする向きがある一方、ニールセンのデータサイエンティストチームはこのような見解に対し、疑問を感じています。

ビッグデータの価値やポテンシャルの大きさについては疑いの余地がないものの、現在、メディア業界が使用可能なビッグデータセットには、現実的な制約があるからです。

最近の例

米国の測定サービス企業Comscoreはニールセンのポータブルピープルメーター(PPM)データの利用停止に伴い、同社は今後、データや分析ツールを提供するグローバル企業Experianの ConsumerView データベースのデータセットを用いて、測定を目的とした個人視聴者の特定を行うと発表しました。ビッグデータが未来のものであるならば、その方向にシフトすることは良いことであるはずだからだという意味で、同社の発表は、業界プレスによって「進化」として捉えられました。

しかし同社の顧客にとっても、消費者にとっても、残念ながらそうではありません。

現在、個人の特定が可能な情報にもとづいてデータセットのマッチングを行い、直接収集およびモデリングされたデモグラフィックデータを提供するサードパーティベンダー企業は数多く存在します。ニールセンでは、このようなデータを定期的に精査しています。自社の強固なパネルデータから直接情報を測定し、1) 各世帯との正確なマッチングが行われているかどうか、そして 2) 視聴者属性データや特性が正確に報告されているかという視点をもって、サードパーティデータの正確性を検証しています。 

ニールセンの検証結果は、広告主の注目に十分値します。 

現在のデータセットの大半は、視聴者属性プロファイルではなく、請求書の情報やオンライン行動の収集を中心に構築されています。このようなデータセットには、年齢、収入、人種、民族などの人々の詳細な情報は含まれていませんが、しっかりとしたパネルを使えば、そのような情報も得られます。このようなデータセットは、機械から機械への転送によって作成されるため、無駄や不正が含まれる可能性が高くなります。 

そのため、特定の世帯に実際に住んでいる人についての確実な情報は限られています。また、世帯内の誰が特定の時間に特定の番組を見ているかを示すこともできません。 他のデータソースを用いてこれらのデータセットにトライアンギュレーション(三角測量)を行ったとしても、推定に対して大きなギャップや誤差が生じる可能性は極めて高くなります。これらのデータの利用方法がターゲティングの場合は支障がないかもしれませんが、測定を目的とする場合、これらのデータセットは測定に求められる正確性、客観性や透明性を欠いています。

なぜそれが重要なのか?

では、実際にはどのような意味があるのでしょうか?これにはいくつかの意味があります。 

Comscore社は、実際に確認された約10万人の人々にマイクを取り付け、彼らが何を見ているかを正確に追跡するニールセンのPPMからの移行を進めています。

その結果、誰が何を見ているのかを正確に読み取ることができなくなります。

しかし、もっと大きな意味を持つのは、この変化によって、業界が米国の真の姿を捉えることから遠ざかってしまうということです。

これらのデータセットは、持ち家に長く住んでいる世帯に関しては比較的有用であることは周知の事実であり、理にかなっています。問題は、持ち家に長く住んでいる世帯は往々にして白人種であり、全国平均よりも収入と年齢が明らかに高い傾向にあります。これらのデータセットは設計上、増加傾向にあるアフリカ系やラテン系、さらには所得や年齢の低い生活者を過小カウントします。 

これはセットトップボックスデータから構築されるデータセットにも当てはまり、これらのデータセットは有料ケーブル放送にお金をかける裕福な生活者を過大カウントする傾向にあります。その結果、多くの企業のマーケティング担当者が狙う、比較的収入が低い層が不均衡に除外されることになります。 

メディア業界は、アフリカ系やラテン系のコミュニティを正確に代表することを最優先課題としています。ニールセンの数十年にわたる実績は完璧なものではありませんでしたが、今日、私たちは米国の現状を最も正確かつ高度に把握しています。

代表性があり、検証・監査されたパネルに裏打ちされないビッグデータから派生した計測ツールは、残念ながらニールセンの次元には達していません。ニールセンが保有するパネルは、国勢調査に含まれる多くのデモグラフィックに対し、1%の統計的変動でのターゲティングが可能です。それに対してビッグデータに特化したツール類は、明らかに精度が低くなっています。業界はビッグデータの代表性という課題を率直に認識し、対応する必要があります。

業界全体にとってのより広範な課題

ここではComscoreを例としてビッグデータの問題について触れましたが、これは現在提供されている全てのビッグデータセットに関わる大きな課題です。

2020年8月、ANA (Association of National Advertisers、全米広告主協会)は業界団体のMRC (Media Rating Council)とSequent Partnersと共に、メディアターゲティングにおける多文化オーディエンスの代表性度合を把握する調査を実施した際、ニールセンのデータをベンチマークとして採用しました。この研究では、高品質のマーケティングデータとメディアデータを集約して、アフリカ系、ラテン系やアジア系オーディエンスへのターゲティングの正確性を把握しました。調査から得られたファインディングスには問題が散見されましたが、ニールセンにとって問題自体は想定の範囲内でした。

同調査で、業界が信頼するビッグデータセットは、マーケティング担当者にとっては重要となる上記3つのコミュニティを正確にターゲティングできていないことが判明しました。強固なパネルとは違い、これらのビッグデータセットは設計上、これら消費者の全体像を把握することができないため、データには誤った表現や不十分な表現が多数存在し、代表性に欠けていたという深刻な問題が発覚しました。 

これに対し、ニールセンの強固なパネルは実在する人物から直接収集され、米国の総人口を代表する多種多様な情報を提供しています。誰が家に住んでいるのか? 何歳なのか?どのような人種や民族を認識しているのか?ある時点で誰がテレビを見ているのか?ニールセンのパネルはこれらの疑問に答えてくれます。

パネルはそれだけでは完璧ではありませんが、他の産業、例えば製薬会社が薬の承認を得る際にパネルに似たアプローチを採用しているのには理由があります。それは、リスクが高いときには、実際に人々から情報を得て、検証することに代わるものはないためです。

ビッグデータの可能性に対する期待は様々な業界で高まっており、ニールセンもビッグデータの価値や可能性を評価している。しかしメディア業界の関係者は、ビッグデータによって解決が可能なこと、可能ではないことを正直に認めるべきだろう。ニールセンが描くメディア計測の未来ビジョンは、ビッグデータのリーチと実在する個人から成る強固なパネルの組み合わせだ。 多くの業界関係者がビッグデータの可能性に期待していることは承知していますし、私たちも同様です。しかし、業界としては、ビッグデータで解決できること、できないことを正直に説明する必要があります。ニールセンが描くメディア計測の未来ビジョンは、ビッグデータのリーチと実在する個人から成る強固なパネルの組み合わせによるものです。

This article originally appeared on Next TV.