研究强调,需要借助权威的内容智能,才能构建由生成式人工智能驱动的、值得信赖的搜索、发现和推荐体验
纽约——2026年6月10日——尼尔森旗下内容智能业务部门Gracenote今日发布了最新报告《AI的剧情漏洞:为何脱离现实的大型语言模型无法解决内容发现问题》。 该研究考察了某领先的大型语言模型(LLM)在回答涉及13个国家、2,600部热门电影和电视剧的问题时,其准确性如何。通过对比仅基于训练数据的回答与基于Gracenote内容智能的回答,研究发现,该未锚定LLM在506部作品中虚构了所有被测量的元数据,占比近五分之一。
该报告发布之际,流媒体服务及其他娱乐内容提供商正开始借助大型语言模型(LLMs),帮助观众应对海量选择和零散的内容库。测试涉及的各项细节——从剧情简介、演员阵容到类型、上映年份和片长——正是观众决定观看什么、服务商描述、整理和推荐内容时所依据的要素。结果表明,人工智能驱动的内容发现效果,完全取决于支撑该体验的数据质量。
“观众并不关心错误答案的来源。只要答案是错的,他们就会归咎于服务本身,”Gracenote产品高级副总裁泰勒·贝尔表示。“这就是为什么‘立足现实’至关重要。对于致力于打造新一代娱乐发现平台的企业而言,生成式人工智能只有植根于经过验证的内容智能,用准确的事实取代似是而非的猜测,才能兑现其承诺——从而减少使用障碍、深化用户参与度并增强用户忠诚度。”
其他见解包括:
- 相似的片名导致LLM调用了错误的内容。例如,该模型虽然正确给出了2025年上映的惊悚片《Heel》的片名和年份,但其剧情简介、演员阵容和类型却来自Starz电视台2021年至2023年播出的电视剧《Heels》。 在另一个案例中,它将2024年的恐怖惊悚片《Trucker》与2008年同名电影混为一谈。
- 近期披露的内容暴露了重大盲点。该模型因缺乏数据支撑,无法提供关于多部新片的信息,其中包括2026年上映的电影《GOAT》——该片在登陆Netflix之前,全球票房已接近2亿美元。
- 就连核心演员的信息也难以令人信服。在全美票房前100名的电影中,未经训练的大语言模型(LLM)对主演的识别结果,仅有53%与实际数据相符。
正如报告所指出的,到2026年,没有任何一个大型语言模型(LLM)能够完全避免产生幻觉——这对那些需要大规模提供准确、及时的娱乐内容答案的人工智能系统而言,构成了一项特殊风险。 对于致力于构建人工智能驱动的搜索、发现和推荐体验的企业而言,数据锚定有助于将模型能力转化为观众的信任。Gracenote权威的内容智能通过两种方式提供这一基础:一是直接数据授权,二是其Video MCP Server——该服务器连接至公司的全球娱乐知识图谱。借助这一访问权限,LLM能够超越那些听起来合乎情理的“幻觉”,提供更可靠的响应,从而减少观众的交互摩擦,加深参与度并增强用户忠诚度。
Gracenote 将于 6 月 18 日在丹佛举行的 StreamTV Show 上分享该报告的调研结果。届时,Gracenote 产品高级总监 Nandita Arora将参加题为“重新构想内容发现”的专题讨论。本次讨论将探讨人工智能、个性化服务、统一搜索以及新型用户体验方案如何重塑流媒体服务连接观众与内容的方式。
完整报告《AI中的情节漏洞:为何缺乏依据的大型语言模型无法解决内容发现问题》可在此处下载。
方法
Gracenote 在 13 个国家/地区(澳大利亚、巴西、加拿大、法国、德国、日本、墨西哥、荷兰、韩国、西班牙、瑞典、英国和美国)对 2,600 部热门影视作品进行了测试。该研究对比了两种情况下的响应结果:一种是未进行知识锚定的 LLM(仅依据训练数据进行回答),另一种是通过 MCP 服务器基于 Gracenote 全球视频数据进行知识锚定的响应。 评估依据涵盖了标题、简介、演员、类型、上映年份及片长(如适用)等客观属性。由于这些属性均可独立验证,研究结果定量展示了知识锚定如何影响 AI 生成的娱乐内容响应的准确性和可靠性。
关于 Gracenote
Gracenote 是尼尔森旗下的内容智能业务部门。我们统一了全球媒体和娱乐生态系统对内容及相关元数据的索引方式,从而实现内容在创作者、发行商、平台和广告商之间的顺畅流通。 我们拥有覆盖 5000 多万部作品及 8 万多个频道和目录的无与伦比的深度数据,以此驱动现代化的搜索、发现和导航体验,将人们与他们喜爱的电视、电影、音乐和体育内容紧密相连——服务范围覆盖 80 多个国家,支持 70 多种语言。如需了解更多信息,请访问Gracenote.com或在LinkedIn 上关注我们。
媒体联系方式
Mark Yamada
mark.yamada@nielsen.com

