콘텐츠로 건너뛰기
02_Elements/아이콘/왼쪽 화살표 인사이트로 돌아가기
청중> 통찰력

알아야 할 사항: 잠재고객 측정에서 빅데이터의 장단점

8 분 읽기 | August 2023

빅 데이터는 정확히 무엇이며, 왜 빅 데이터가 정확한 오디언스 측정에 도움이 되기도 하고 잠재적인 장애물이 되기도 할까요? 빅데이터의 장점과 단점, 그리고 이를 활용할 수 있는 방법을 알아보세요.  

빅 데이터란 무엇인가요?

리니어 미디어 세계에서 빅 데이터는 일반적으로 최종 사용자에게 프로그램을 제공하는 시스템에서 생성되는 두 가지 유형의 데이터 스트림을 의미합니다: 케이블 또는 위성 셋톱박스(예: Dish 또는 DirecTV)의 리턴 경로 데이터(RPD)와 인터넷에 연결된 스마트 TV 세트(예: 삼성 또는 비지오)의 자동 콘텐츠 인식(ACR)이 바로 그것입니다.

ACR 데이터

ACR 기술은 채널 변경 로그가 아닌 TV 화면의 이미지를 모니터링합니다. 이미지는 지문과 같은 역할을 하며, 대규모 참조 라이브러리와 비교하여 프로그램이나 광고가 실제로 무엇인지 식별합니다. 이미지에는 타임 스탬프가 찍혀 재생 시점을 파악할 수 있습니다.

RPD 데이터

셋톱박스가 어떤 채널에 튜닝되어 있는지, 채널이 변경되는 시간은 언제인지 기록합니다. 이 데이터를 TV 편성표와 대조하여 특정 시간에 어떤 프로그램이 재생되는지 파악하고, 제공업체의 광고 서버 또는 파트너의 데이터와 대조하여 해당 가정이 어떤 광고에 노출되는지 파악할 수 있습니다.

두 경우 모두 최종 사용자는 자신의 기기에서 데이터 수집을 허용합니다. 데이터 수집은 측정뿐만 아니라 사용자 선호도 및 콘텐츠 추천과 같은 많은 사람들이 원하는 기능을 제공하기 때문에 협력도가 상대적으로 높습니다. RPD 또는 ACR 데이터 세트는 3,000만 대 이상의 디바이스를 포함할 수 있습니다.

빅데이터가 중요한 이유는 무엇인가요?

사람들이 선택할 수 있는 채널이 몇 개 밖에 없던 시절이 있었습니다. 가구 시청률1이 60점(1983년 M*A*S*H의 피날레처럼) 또는 40점(1998년 Seinfeld의 피날레처럼)을 넘기는 것은 오늘날 대본이 있는 프로그램에서는 상상할 수 없는 일입니다. 우리는 훨씬 더 세분화된 세상에 살고 있으며, 매우 길고 긴 프로그램 옵션 목록이 있습니다.

이는 TV 시청자에게는 좋지만 패널 기반 조사에서는 상황이 복잡해집니다: 전국적으로 101,000명으로 구성된 패널에서 시청률이 0.2인 TV 프로그램은 애틀랜타 또는 댈러스 대도시 지역에서는 80가구만 시청할 수 있습니다. 수천만 대의 디바이스가 측정 대상인 빅데이터를 통해 리서치 회사는 훨씬 더 세분화된 수준에서 TV 사용량을 보고할 수 있으며, 소규모의 다양한 시청자를 대상으로 하는 더 많은 프로그램에 대한 커버리지를 제공할 수 있습니다. 하지만 빅 데이터는 그 자체로 시청률 측정에 사용되지는 않습니다.

과제 #1: 빅 데이터의 대표성 부족

미디어 구매자와 판매자가 자신 있게 거래하려면, 인구의 다양성을 모두 반영하는 측정 솔루션이 필요합니다: 모든 연령대, 인종, 민족 및 기타 여러 주요 인구통계학적 및 행동적 특성이 기초 데이터에 존재하고 비례해야 합니다.

하지만 규모가 대표성을 보장하지는 않습니다. 닐슨 전국 TV 패널의 설치 수를 분석한 결과, RPD를 사용하는 가정은 일반 인구에 비해 불균형적으로 나이가 많고 인종적으로 다양하지 않다는 사실을 발견했습니다. 예를 들어 히스패닉 가구는 약 30% 정도 과소 대표되며, 25세 미만의 가구주는 RPD 데이터 세트에서 거의 완전히 누락됩니다. 반면에 ACR 데이터 세트는 일반 인구보다 더 젊고 가구원 수도 더 많습니다. 빅데이터에서 통계적 가중치를 사용하면 문제를 숨길 수는 있지만, 소외된 오디언스의 누락된 고유한 시청 행동을 보완할 수는 없습니다.

설상가상으로, RPD 및 ACR 데이터에만 의존하는 측정 솔루션은 점점 더 많은 파이를 차지하고 있는 공중파2 및 스트리밍 전용 가구를 놓칠 수 있습니다.

과제 #2: 빅데이터가 모든 시청 행동을 포착하지 못할 수 있습니다.

대표 가구를 포함하더라도 RPD 및 ACR 데이터 세트는 가구 내 모든 셋톱박스 또는 스마트 TV가 아닌 다른 TV 세트의 시청을 포착하지 못합니다. 이러한 추가 TV 세트는 가족 구성원마다 다른 프로그램을 재생할 수 있으므로(예: 부엌에서 요리 프로그램을 시청하거나 놀이방에서 어린이 프로그램을 시청하는 경우) 빅데이터 가구가 전체 인구를 대표하지 않을 뿐만 아니라 빅데이터 자체가 해당 가정에서 발생할 수 있는 모든 시청을 대표하지도 않습니다.

RPD에 의존하는 리서치 회사들에게 불만스러운 문제는 연결된 TV가 꺼져 있어도 셋톱박스가 계속 켜져 있는 경우가 많다는 것입니다. 이러한 '팬텀' 튜닝은 제공업체에 따라 실제 시청률을 145%에서 260%까지 과장할 수 있습니다. 이를 보완하기 위해 구현할 수 있는 모델이 있지만, 실제 시청에 대한 정보를 제공하는 패널과 같은 기준점이 없으면 올바른 휴리스틱을 개발하기 어려울 수 있습니다.

ACR도 데이터 품질 문제에서 자유롭지 않습니다. 일부 스마트 TV 스트리밍 애플리케이션은 앱이 사용 중인 동안 ACR이 화면의 콘텐츠를 캡처하지 못하도록 차단합니다. 실제로는 앱에 의해 콘텐츠가 차단되었지만 TV가 꺼진 것처럼 보일 수 있습니다. 또한 대부분의 제공업체는 전체 프로그램 중 극히 일부만 모니터링합니다. 최근 분석에 따르면, ACR 제공업체는 현재 사용 가능한 전체 방송국의 31%만 모니터링하고 있으며, 녹화 분량의 23%는 여전히 모니터링되지 않는 방송국에서 나오는 것으로 나타났습니다. 비교할 수 있는 기준 지문이 없기 때문에 이러한 시청은 보고되지 않습니다.

과제 #3: 빅 데이터에 시청자 인구 통계가 누락됨

RPD 및 ACR 제공업체는 수백만 대의 기기에서 튜닝 데이터를 수집하지만 누가 시청하고 있는지 알 수 없기 때문에 광고주가 궁극적으로 원하는 것은 바로 이 점입니다.

이러한 단점을 보완하는 한 가지 방법은 타사 인구통계 공급업체와 협력하는 것입니다. 이러한 업체는 미국 내 모든 가구의 인구통계학적 구성에 대한 기록을 보유하고 있으며, 리서치 회사는 특정 가구의 튜닝 데이터와 해당 가구의 인구통계학적 구성의 총합을 통해 누가 무엇을 시청하는지 모델링을 시도할 수 있습니다.

어린이 프로그램? 집에 있는 아이가 하는 소리겠군요. 레슬링 경기? 남성 시청자가 시청한 것이 틀림없습니다. 머신러닝 알고리즘을 지원하는 실제 기준점이 없으면 이러한 유형의 모델링이 어디에서 실패할 수 있는지 쉽게 알 수 있습니다. 당연히 가구 규모가 커질수록 신뢰도가 점점 떨어지고, 결국 자녀가 있거나 백인이 아닌 시청자, 젊은 시청자 등 대가족일수록 데이터의 정확도가 떨어지게 됩니다. 

패널 데이터의 영구적 가치 

안정적이고 신뢰할 수 있는 오디언스 측정 솔루션을 찾고 있는 브랜드와 미디어 기업에게 위에서 설명한 문제들은 결코 쉬운 일이 아닙니다. 패널 데이터는 이러한 한계를 극복하는 데 매우 중요합니다.

닐슨에서는 RPD 또는 ACR 데이터를 분석할 때 패널에 속한 가정과 디바이스를 식별하고, 해당 가정의 튜닝 데이터를 측정기에서 캡처한 시청 행동과 비교할 수 있습니다. 이러한 가정에서 패널을 진실의 원천으로 활용하면 빅데이터가 진실에서 벗어난 부분을 정확히 찾아내고 이러한 이상 현상을 조정할 수 있는 강력한 모델을 개발할 수 있습니다.

예를 들어, 저희는 집안에서 디바이스의 위치를 파악하고 특정 시청자와 튜닝 데이터를 일치시키는 방법론을 개발했습니다. 또 다른 모델은 셋톱박스가 켜져 있는 동안 TV 세트가 꺼져 있는지 여부를 판단하는 데 도움이 됩니다. 또 다른 모델은 추가 튜닝으로 등록되는 디바이스 업데이트와 한 디바이스가 동시에 두 개 이상의 튜닝 이벤트를 반환하는 상황을 분류할 수 있습니다.

기기가 아닌 사람

궁극적으로 잠재고객 조사는 기기가 아니라 사람에 관한 것입니다.

빅데이터가 미디어 연구자의 무기고에 큰 도움이 된다는 것은 의심의 여지가 없습니다. 빅데이터는 과거에 가능했던 것보다 더 세분화된 리포팅의 문을 열어줍니다. 하지만 빅데이터는 본질적으로 결함이 있고, 편향적이며, 가장 근본적으로는 근시안적입니다: 데이터를 보는 것이 아니라 조정하는 데이터를 캡처합니다.

잠재력을 발휘하려면 데이터를 정리하고, 채우고, 보정하고, 관련 인구 통계로 보강해야 합니다. 바로 패널 데이터가 필요한 이유입니다. 머신러닝은 강력한 훈련 및 검증 데이터와 함께 가장 잘 작동하며, 오늘날 미디어 리서치 비즈니스의 중심에 있는 전국적으로 대표적인 패널 데이터보다 더 좋은 훈련 데이터는 업계에 존재하지 않습니다.

닐슨의 니즈 투 노우드는 오디언스 측정의 기본 사항을 검토하고 미디어 업계에서 가장 뜨거운 주제를 이해하기 쉽게 설명합니다.

메모

1 가구 시청률은 해당 국가의 모든 가구 중 특정 프로그램을 시청하는 가구의 비율입니다.
2 안테나의 "신호"를 통해 프로그램을 시청할 수 있습니다. 무선(OTA) 방송은 최초의 TV 유형이었습니다.

유사한 인사이트 계속 탐색