그레이스노트(Gracenote)의 최신 보고서에 따르면, 검증된 영화 및 TV 프로그램 제목 중 약 5개 중 1개에서 근거 없는 LLM이 세부 정보를 임의로 생성한 것으로 나타났다

이 연구는 생성형 AI를 기반으로 한 신뢰할 수 있는 검색, 탐색 및 추천 경험을 구축하기 위해 권위 있는 콘텐츠 인텔리전스가 필요함을 강조하고 있다

뉴욕 — 2026년 6월 10일 — 닐슨(Nielsen)의 콘텐츠 인텔리전스 사업부인 그레이스노트(Gracenote)는 오늘 최신 보고서인 “AI의 줄거리 허점: 근거 없는 대규모 언어 모델(LLM)이 콘텐츠 발견 문제를 해결할 수 없는 이유”를 발표했다. 이 연구는 13개국에서 2,600편의 인기 영화 및 TV 프로그램에 대한 질문에 주요 대규모 언어 모델(LLM)이 얼마나 정확하게 답변했는지 조사했다. 훈련 데이터에만 기반한 응답과 그레이스노트의 콘텐츠 인텔리전스에 근거한 응답을 비교한 결과, 근거가 부족한 LLM은 조사 대상 506편(전체 작품의 약 5분의 1)에 대해 측정된 모든 메타데이터를 잘못 인식한 것으로 나타났다.

이 보고서는 스트리밍 서비스 및 기타 엔터테인먼트 제공업체들이 시청자들이 압도적인 선택지와 파편화된 콘텐츠 목록을 헤쳐나갈 수 있도록 돕기 위해 대규모 언어 모델(LLM)을 도입하기 시작한 시점에 발표되었다. 요약, 출연진, 장르, 개봉 연도, 상영 시간 등 테스트에 포함된 세부 정보들은 시청자가 무엇을 볼지 결정할 때 활용하는 요소이자, 서비스 제공업체가 콘텐츠를 설명하고, 정리하며, 추천하는 데 사용하는 요소와 동일하다. 이번 결과는 AI 기반 콘텐츠 탐색의 품질이 그 경험을 뒷받침하는 데이터의 질에 달려 있음을 보여준다.

그레이스노트(Gracenote)의 제품 담당 수석 부사장인 타일러 벨은 “시청자들은 잘못된 답변이 어디서 나왔는지 신경 쓰지 않습니다. 틀렸다면 서비스 탓을 할 뿐이죠”라고 말했다. “바로 그 때문에 ‘근거’가 중요합니다. 차세대 엔터테인먼트 탐색 플랫폼을 구축하는 기업들에게 있어, 생성형 AI는 그럴듯한 추측을 정확한 사실로 대체하는 검증된 콘텐츠 인텔리전스에 기반을 두었을 때만 그 잠재력을 발휘할 수 있습니다. 이를 통해 사용 편의성을 높이고, 참여도를 높이며, 고객 충성도를 강화할 수 있을 것입니다.”

그 밖의 주요 내용은 다음과 같습니다:

비슷한 제목들 때문에 LLM이 잘못된 콘텐츠를 찾아내기도 했다. 한 예로, 학습 데이터가 부족한 이 모델은 2025년 개봉 예정인 스릴러 영화 《Heel》의 제목과 개봉 연도는 정확히 반환했으나, 설명, 출연진, 장르는 2021년부터 2023년까지 방영된 Starz 드라마 시리즈 《Heels》에서 가져왔다. 또 다른 사례에서는 2024년 개봉 예정인 공포 스릴러 영화 'Trucker'를 2008년 동명 영화와 혼동했습니다.
최근 공개된 자료에서 몇 가지 큰 사각지대가 드러났다. 이 근거 없는 모델은 넷플릭스에 공개되기 전 전 세계적으로 2억 달러에 가까운 수익을 올린 2026년작 영화 ‘GOAT’를 비롯한 여러 신작에 대한 정보를 제공하지 못했다.
주연 배우 정보조차 신뢰할 수 없는 것으로 드러났다. 미국 박스오피스 상위 100개 영화의 경우, 근거 데이터가 없는 대규모 언어 모델(LLM)이 제시한 주연 배우 답변 중 실제 데이터와 일치한 비율은 53%에 불과했다.

보고서에서 명확히 밝히고 있듯이, 2026년 현재 환각 현상을 전혀 일으키지 않는 대규모 언어 모델(LLM)은 존재하지 않으며, 이는 대규모로 정확하고 최신의 엔터테인먼트 관련 답변을 제공해야 하는 AI 시스템에 특히 큰 위험 요소가 됩니다. AI 기반 검색, 콘텐츠 탐색 및 추천 경험을 구축하는 기업들에게 '그라운딩(grounding)'은 모델의 역량을 시청자의 신뢰로 전환하는 데 도움이 됩니다. Gracenote의 권위 있는 콘텐츠 인텔리전스는 직접적인 데이터 라이선싱 또는 회사의 글로벌 엔터테인먼트 지식 그래프에 연결되는 Video MCP 서버를 통해 두 가지 방식으로 이러한 기반을 제공합니다. 이를 통해 LLM은 그럴듯하게 들리는 허구적 정보를 넘어, 시청자의 불편을 줄이고 참여도를 높이며 충성도를 강화하는 더 신뢰할 수 있는 답변을 제공할 수 있습니다.

그레이스노트는 6월 18일 덴버에서 열리는 ‘스트림TV 쇼(StreamTV Show)’에서 이번 보고서의 주요 내용을 발표할 예정이며, 그레이스노트의 제품 담당 수석 이사인 난디타 아로라(Nandita Arora)가“콘텐츠 발견의 재구상(Reimagining ContentDiscovery)” 패널 토론에 참여합니다. 이 세션에서는 AI, 개인화, 통합 검색 및 새로운 사용자 경험 접근 방식이 스트리밍 서비스가 시청자와 콘텐츠를 연결하는 방식을 어떻게 변화시키고 있는지 살펴볼 예정입니다.

전체 보고서인 “AI의 플롯 구멍: 근거 없는 대규모 언어 모델(LLM)이 콘텐츠 발견 문제를 해결할 수 없는 이유”는 여기에서 다운로드할 수 있습니다.

방법론

그레이스노트(Gracenote)는 호주, 브라질, 캐나다, 프랑스, 독일, 일본, 멕시코, 네덜란드, 한국, 스페인, 스웨덴, 영국, 미국 등 13개국에서 인기 있는 영화 및 TV 프로그램 2,600편을 대상으로 테스트를 진행했습니다. 이 연구에서는 훈련 데이터만을 바탕으로 답변하도록 지시받은 ‘그라운딩되지 않은’ 대규모 언어 모델(LLM)의 응답과, MCP 서버를 통해 그레이스노트의 글로벌 비디오 데이터에 기반한 응답을 비교했습니다. 응답은 제목, 설명, 출연진, 장르, 개봉 연도 및 상영 시간(해당되는 경우)을 포함한 객관적인 속성들을 기준으로 평가되었습니다. 이러한 속성들은 독립적으로 검증될 수 있으므로, 이번 결과는 그라운딩이 AI가 생성한 엔터테인먼트 관련 응답의 정확성과 신뢰성에 어떤 영향을 미치는지에 대한 정량적인 통찰을 제공합니다.

Gracenote 소개

그레이스노트(Gracenote)는 닐슨(Nielsen)의 콘텐츠 인텔리전스 사업부입니다. 당사는 전 세계 미디어 및 엔터테인먼트 생태계가 콘텐츠와 관련 메타데이터를 색인화하는 방식을 표준화하여, 제작자, 유통사, 플랫폼 및 광고주 간에 원활하게 정보가 유통되도록 지원합니다. 5,000만 개 이상의 타이틀과 8만 개 이상의 채널 및 카탈로그에 걸쳐 타의 추종을 불허하는 심층적인 정보를 제공함으로써, 80여 개국 70개 이상의 언어로 사람들이 좋아하는 TV 프로그램, 영화, 음악, 스포츠와 연결되는 현대적인 검색, 발견 및 탐색 경험을 지원합니다. 자세한 내용은 Gracenote.com을 방문하거나 LinkedIn에서 팔로우해 주십시오.

미디어 연락처

마크 야마다
mark.yamada@nielsen.com

그레이스노트의 새로운 보고서에 따르면, 검증되지 않은 LLM이 테스트 대상 영화 및 TV 프로그램 제목의 약 5개 중 1개에 대해 모든 세부 정보를 임의로 생성한 것으로 나타났다

이 연구는 생성형 AI를 기반으로 한 신뢰할 수 있는 검색, 탐색 및 추천 경험을 구축하기 위해 권위 있는 콘텐츠 인텔리전스가 필요함을 강조하고 있다

그 밖의 주요 내용은 다음과 같습니다:

방법론

Gracenote 소개

미디어 연락처

비즈니스에 적합한 솔루션 찾기

어떻게 도와드릴까요?