콘텐츠로 건너뛰기
02_Elements/아이콘/왼쪽 화살표 인사이트로 돌아가기
인사이트 > TV 및 스트리밍

빅데이터 세트의 숨겨진 문제

6분 읽기 | 몰리 포피, 닐슨 데이터 과학 부문 수석 부사장, 2021년 10월

최근 미디어 업계에서는 측정의 미래와 빅 데이터의 가능성에 대해 많은 에너지와 흥분이 넘쳐나고 있습니다. 닐슨은 빅데이터의 가치를 오랫동안 이해해 왔으며, 실제로 지난달에는 전국 TV 측정 서비스에 빅데이터를 추가하는 방법에 대한 자세한 내용을 발표했습니다. 

또한 지난 몇 달 동안 보여준 것처럼 완벽한 패널은 없다는 것을 알고 있습니다. 

하지만 데이터 과학자 팀에서 빅데이터가 세상을 구하고 업계의 모든 문제를 해결할 것이라는 거창하고 광범위한 주장을 들으면 회의적이지 않을 수 없습니다.

그 이유는 빅데이터의 가치와 놀라운 잠재력에도 불구하고 현재 업계에서 접근할 수 있는 빅데이터 세트에는 매우 현실적인 한계가 있기 때문입니다. 

최근의 관련 예

닐슨의 휴대용 피플 미터에 대한 액세스 권한을 잃은 컴스코어는 이제 측정 목적으로 개별 시청자를 식별하기 위해 Experian의 ConsumerView의 데이터 세트를 사용할 것이라고 발표했습니다. 빅 데이터가 미래라면 그 방향으로의 변화는 좋은 일임에 틀림없기 때문에 이러한 발표는 업계 언론에서 발전으로 받아들여졌습니다. 

안타깝게도 고객과 소비자에게는 그렇지 않습니다. 

개인 식별 정보를 기반으로 데이터 세트를 매칭하고 직접 수집 및 모델링한 인구통계학적 특성을 제공하는 기능을 제공하는 소수의 타사 ID 공급업체가 있습니다. 

닐슨에서는 이러한 데이터를 정기적으로 확인합니다. 강력한 패널의 정보를 직접 측정하여 이러한 데이터 세트가 1) 가구와 얼마나 정확하게 일치하는지, 2) 인구 통계 및 특성을 얼마나 정확하게 보고하는지 검증하는 방식으로 이를 수행합니다. 

일반적으로 광고주들은 이러한 사실을 발견하면 잠시 멈칫하게 됩니다. 

오늘날 대부분의 데이터 세트는 인구통계학적 프로필이 아닌 청구 정보나 온라인 행동 수집을 중심으로 구축되어 있습니다. 이러한 데이터 세트에는 강력한 패널처럼 연령, 소득, 인종, 민족 등 목록에 있는 사람들이 정확히 누구인지에 대한 풍부한 세부 정보가 없습니다. 이러한 데이터 세트는 기계 간 전송을 통해 생성되기 때문에 낭비와 사기의 가능성도 높습니다. 

따라서 특정 가정에 실제로 누가 살고 있는지에 대해 제공할 수 있는 확실성의 수준은 제한적입니다. 또한 특정 가정 내에서 특정 시간에 특정 프로그램을 시청하는 사람이 누구인지 알 수 없습니다. 

해당 데이터를 다른 소스와 삼각 측량하더라도 추정치에는 엄청난 격차와 오류가 발생할 가능성이 거의 보장됩니다. 사용 사례가 타겟팅을 목적으로 하는 경우에는 이러한 오류가 허용될 수 있지만, 이 데이터만으로는 측정에 필요한 정확성, 객관성, 투명성을 제공하지 못합니다. 

중요한 이유

그렇다면 이는 실질적으로 무엇을 의미할까요? 몇 가지 의미가 있습니다. 

컴스코어의 경우, 실제 10만 명에 달하는 검증된 사람들에게 실제로 마이크를 부착하고 그들이 무엇을 보고 있는지 정확히 추적하는 개인별 피플 미터에서 벗어나고 있습니다, 

를 청구 데이터를 사용하여 특정 시간에 특정 프로그램을 시청할 수 있는 거주자 추정치를 제공하는 모델에 추가하면 누가 무엇을 시청하고 있는지에 대한 정확도가 떨어집니다. 

하지만 더 큰 의미는 이러한 변화로 인해 업계가 진정한 국가 대표성을 확보하는 데 더 멀어질 수 있다는 점입니다. 

이러한 유형의 데이터 세트 중 상당수는 거주자가 자신의 집을 소유하고 오랫동안 거주했을 때 가구에 대한 데이터를 더 잘 제공한다는 것을 알고 있습니다. 그럴 만합니다. 문제는 오랜 기간 주택을 소유한 사람들이 국가 전체보다 백인이고, 더 부유하며, 훨씬 나이가 많은 경향이 있다는 것입니다. 이러한 데이터 세트는 흑인과 갈색인, 저소득층, 젊은 층을 과소 집계하도록 설계되어 있는데, 이 모든 계층이 줄어들지 않고 성장하고 있는 시점에 이러한 데이터 세트는 이러한 계층을 과소 집계합니다. 

셋톱박스 데이터를 기반으로 구축된 데이터 세트도 마찬가지인데, 이는 케이블 패키지에 더 많은 비용을 지불할 의사가 있는 부유한 소비자를 과대 집계하는 경향이 있어 많은 마케터에게 중요한 타깃인 저소득층 소비자를 불균형적으로 배제하는 결과를 초래합니다. 

미디어 업계는 당연히 흑인과 브라운 커뮤니티를 정확하게 대변하는 것을 최우선 과제로 삼아왔습니다. 닐슨의 지난 수십 년 동안의 실적은 완벽하지는 않았지만, 오늘날 우리는 미국을 있는 그대로 가장 정확하고 발전된 시각으로 바라보고 있습니다. 

대표성 있고 검증되고 감사된 패널이 뒷받침하지 않는 빅 데이터 기반 측정 도구는 이러한 주장을 할 수 없습니다. 닐슨 패널은 1%의 변동성으로 인구조사 내의 많은 인구 통계를 타겟팅할 수 있지만, 빅 데이터에 초점을 맞춘 옵션은 이에 미치지 못합니다. 업계는 빅 데이터가 대표성과 관련하여 제기하는 문제에 대해 개방적이고 정직해야 합니다.

더 큰 문제

분명히 말씀드리지만, 이것은 비단 컴스코어만의 문제가 아닙니다. 이는 현재 존재하는 모든 빅 데이터 세트의 문제입니다. 

2020년 8월, ANA는 미디어 타겟팅에서 다문화 오디언스가 얼마나 정확하게 표현되고 있는지 파악하기 위해 MRC 및 시퀀트 파트너스와 협력하여 닐슨 데이터를 벤치마크로 사용했습니다. 이 연구는 고품질 마케팅 및 미디어 데이터를 종합적으로 수집하여 흑인, 갈색 및 아시아계 잠재고객을 얼마나 정확하게 타겟팅하고 있는지 파악하고자 했습니다. 연구 결과는 우려스럽지만 전혀 놀랍지 않은 결과였습니다. 

이 연구에 따르면 업계가 의존하는 빅데이터 세트는 이러한 중요한 커뮤니티를 정확하게 타겟팅하는 데 적합하지 않은 것으로 나타났습니다. 부분적으로는 데이터 세트가 강력한 패널처럼 이러한 소비자가 실제로 누구인지에 대한 풍부한 데이터를 포착하도록 설계되지 않았기 때문에 데이터에 허위 진술과 과소 대표성이 만연했습니다. 

이제 미국 전체 인구를 대표하는 실제 사람들로부터 직접 수집한 풍부한 정보를 제공하는 닐슨의 강력한 패널과 대조해 보세요. 집에 누가 살고 있나요? 자녀의 나이는 몇 살인가요? 어떤 인종과 민족으로 구성되어 있나요? 특정 시점에 누가 TV를 시청하고 있나요? 닐슨의 패널이 이러한 질문에 답합니다. 

다시 말하지만, 패널 자체가 완벽하지는 않지만 다른 산업, 즉 제약 업계에서 의약품 승인에 패널과 유사한 접근 방식을 사용하는 데에는 이유가 있습니다. 그 이유는 위험 부담이 큰 경우 실제 검증된 사람을 대신할 수 없기 때문입니다.  

많은 업계 관계자들이 빅 데이터의 가능성에 대해 기대하고 있다는 것을 알고 있으며, 저희도 마찬가지입니다. 하지만 업계는 빅데이터로 해결할 수 있는 것과 해결할 수 없는 것에 대해 솔직해져야 합니다. 또한 미디어 측정의 미래는 빅데이터의 도달 범위와 강력한 패널의 검증된 개인 데이터를 결합한 접근 방식이라는 것을 잘 알고 있습니다.

이 기사는 원래 다음 TV에 게재되었습니다.

유사한 인사이트 계속 탐색