콘텐츠로 건너뛰기
02_Elements/아이콘/왼쪽 화살표 인사이트로 돌아가기
인사이트 > TV 및 스트리밍

빅 데이터 세트의 숨겨진 문제

6 분간 읽기 | Molly Poppie, Nielsen 데이터 과학 수석 부사장 | 2021년 10월

최근 미디어계에서는 측정의 미래와 빅 데이터의 가능성에 대해 많은 에너지와 흥분이 있었습니다. Nielsen은 오랫동안 빅 데이터의 가치를 이해해 왔으며 실제로 지난 달에 전국 TV 측정 서비스에 빅 데이터를 추가하는 방법에 대한 추가 세부 정보를 발표했습니다. 

또한 지난 몇 달 동안 증명된 것처럼 완벽한 패널은 없다는 것도 알고 있습니다. 

그러나 데이터 과학자 팀이 빅 데이터가 세상을 구하고 업계에서 인식되는 모든 문제를 해결할 것이라는 크고 광범위한 주장을 들을 때 회의적이지 않을 수 없습니다.

그 모든 가치와 놀라운 잠재력에도 불구하고 현재 업계가 액세스할 수 있는 빅 데이터 세트에는 매우 현실적인 한계가 있기 때문입니다. 

관련 최근 사례

Nielsen의 Portable People Meter에 대한 액세스 권한을 잃은 후 Comscore는 이제 Experian의 ConsumerView의 데이터 세트를 사용하여 측정 목적으로 개별 시청자를 식별하는 데 도움을 줄 것이라고 보고했습니다. 그들의 발표는 업계 언론에서 진보로 포장되었습니다 – 결국 빅 데이터가 미래라면 그 방향으로의 전환은 좋은 것임에 틀림없습니다. 

불행히도 고객과 소비자는 그렇지 않습니다. 

개인 식별 정보를 기반으로 데이터 세트를 일치시키고 직접 수집 및 모델링된 인구 통계학적 특성을 제공하는 기능을 제공하는 소수의 타사 ID 공급업체가 있습니다. 

Nielsen에서는 이 데이터를 정기적으로 확인합니다. 이를 위해 강력한 패널의 정보를 직접 측정하여 이러한 데이터 세트가 1) 가구와 올바르게 일치하고 2) 인구 통계 및 특성을 정확하게 보고하는 데 얼마나 정확한지 검증합니다. 

우리가 일반적으로 발견하는 것은 광고주에게 잠시 멈출 수 있는 기회를 줍니다. 

오늘날 시중에 나와 있는 대부분의 데이터 세트는 인구 통계학적 프로필이 아닌 청구 정보 또는 온라인 행동 수집을 중심으로 구축됩니다. 그들은 강력한 패널을 사용하는 것처럼 연령, 소득, 인종 및 민족에 이르기까지 목록에 있는 사람들이 정확히 누구인지에 대한 풍부한 세부 정보를 가지고 있지 않습니다. 이러한 데이터 세트는 기계 간 전송에 의해 생성되기 때문에 낭비 및 사기 가능성도 높아집니다. 

그렇기 때문에 특정 가구에 실제로 누가 살고 있는지에 대해 제공할 수 있는 확실성의 수준은 제한적입니다. 그리고 그들은 특정 가정에서 누가 특정 시간에 특정 프로그램을 시청하고 있는지 말할 수 없습니다. 

해당 데이터를 다른 소스와 삼각 측량하더라도 추정치에 엄청난 격차와 오류가 있을 것이 거의 확실합니다. 사용 사례가 타겟팅하는 경우 허용될 수 있지만 이 데이터 자체만으로는 측정을 제공하는 데 필요한 정확성, 객관성 및 투명성을 제공하지 않습니다. 

중요한 이유

그렇다면 이것이 실제로 의미하는 바는 무엇일까요? 글쎄요, 여기에는 몇 가지 의미가 있습니다. 

Comscore가 실제로 ~100,000명의 실제 생활에 마이크를 부착하고 사람들을 확인하고 그들이 보고 있는 것을 정확히 추적하는 개인 인원 측정기에서 벗어난 경우, 

청구 데이터를 사용하여 주거 내에서 주어진 시간에 누가 특정 프로그램을 시청하고 있는지에 대한 추측을 제공하는 모델의 경우 누가 무엇을 시청하고 있는지에 대한 판독 정확도가 떨어집니다. 

그러나 더 큰 의미는 이러한 변화가 업계가 국가의 진정한 대표성을 포착하는 것에서 더 멀어지게 할 것이라는 것입니다. 

우리는 이러한 유형의 데이터 세트 중 상당수가 가구에 거주하는 사람들이 자신의 집을 소유하고 오랫동안 거주해 왔을 때 가구에 대한 데이터를 제공하는 데 더 효과적이라는 것을 알고 있습니다. 그리고 그것은 일리가 있습니다. 문제는 장기 주택 소유자들이 미국 전체보다 백인이 더 많고, 더 부유하며, 훨씬 더 나이가 많은 경향이 있다는 것입니다. 설계상 이러한 데이터 세트는 흑인과 유색인종, 저소득층, 젊은 층을 과소 집계하며, 이 모든 세그먼트가 축소되는 것이 아니라 성장하고 있습니다. 

셋톱 박스 데이터를 기반으로 구축된 데이터 세트도 마찬가지인데, 이는 케이블 패키지에 더 많은 비용을 지불할 의향이 있는 부유한 소비자를 과대 집계하는 경향이 있어 많은 마케터의 중요한 대상인 저소득 소비자를 불균형적으로 배제하는 경향이 있습니다. 

미디어 산업은 흑인과 유색인종 커뮤니티를 정확하게 대표하는 것을 최우선 과제로 삼았습니다. 닐슨은 수십 년 전으로 거슬러 올라가는 이 일에 대한 우리의 실적이 완벽하지 않았지만 오늘날 우리는 국가를 있는 그대로 가장 정확하고 발전된 시각으로 볼 수 있습니다. 

대표자, 검증 및 감사 패널의 지원을 받지 않는 빅 데이터 파생 측정 도구는 이러한 주장을 할 수 없습니다. Nielsen 패널은 1%의 변동성으로 인구 조사 내의 많은 인구 통계를 대상으로 할 수 있지만 빅 데이터 중심 옵션은 그 근처에도 미치지 못합니다. 업계는 표현과 관련하여 빅 데이터가 제시하는 문제에 대해 개방적이고 정직해야 합니다.

더 큰 문제

분명히 말하자면, 이것은 단지 Comscore 문제가 아닙니다. 이것은 현재 존재하는 모든 빅 데이터 세트의 문제입니다. 

2020년 8월, ANA는 MRC 및 Sequent Partners와 협력하여 미디어 타겟팅에서 다문화 시청자가 정확하게 표현되는 정도를 이해하기 위해 고안된 연구에서 Nielsen 데이터를 벤치마크로 사용했습니다. 이 연구는 고품질 마케팅 및 미디어 데이터의 집계 컬렉션을 살펴보고 흑인, 갈색 및 아시아인 고객을 얼마나 정확하게 타겟팅하고 있는지 이해하려고 했습니다. 그 발견은 우려스러웠지만, 우리에게는 전혀 놀라운 일이 아니었다. 

이 연구는 업계가 의존하는 빅 데이터 세트가 이러한 중요한 커뮤니티를 정확하게 타겟팅하는 작업에 적합하지 않다는 것을 발견했습니다. 부분적으로는 데이터 세트가 이러한 소비자가 실제로 누구인지에 대한 풍부한 데이터를 캡처하도록 설계되지 않았기 때문에 강력한 패널이 그렇듯이 데이터에 대한 허위 진술과 과소 대표가 만연했습니다. 

이제 전체 미국 인구를 대표하는 실제 사람들로부터 직접 수집한 풍부한 정보를 제공하는 Nielsen의 강력한 패널과 대조됩니다. 집에는 누가 살고 있습니까?  그들은 몇 살입니까? 그들은 어떤 인종과 민족으로 식별합니까? 특정 시점에 누가 텔레비전을 보고 있습니까? Nielsen의 패널은 이러한 질문에 답합니다. 

다시 말하지만, 패널 자체는 완벽하지 않지만 다른 산업, 즉 제약이 의약품을 승인할 때 패널과 유사한 접근 방식을 사용하는 데는 이유가 있습니다. 위험이 높을 때는 검증된 진짜 사람을 대체할 수 있는 사람이 없기 때문입니다.  

우리는 많은 업계 관계자들이 빅 데이터의 가능성에 대해 흥분하고 있다는 것을 알고 있으며, 우리도 마찬가지입니다. 그러나 업계로서 우리는 빅 데이터가 해결할 수 있는 것과 해결할 수 없는 것에 대해 정직해야 합니다. 또한 미디어 측정의 미래는 빅 데이터의 도달 범위와 강력한 패널의 검증된 개인 데이터를 결합하는 접근 방식이라는 것을 알고 있습니다.

이 기사는 원래 Next TV에 게재되었습니다.

유사한 인사이트 계속 탐색