Big Data ยังคงเป็นข่าวพาดหัวอยู่เรื่อยๆ แต่ Big Data คืออะไรกันแน่ และทำไมมันจึงเป็นทั้งของขวัญและอุปสรรคที่อาจขัดขวางการวัดผลกลุ่มเป้าหมายได้อย่างแม่นยำ เราจะเจาะลึกข้อดี ข้อเสีย และวิธีที่จะทำให้มันได้ผล
บิ๊กดาต้าคืออะไร?
ในโลกของสื่อเชิงเส้น ข้อมูลขนาดใหญ่โดยทั่วไปจะหมายถึงข้อมูลสตรีมสองประเภทที่ผลิตโดยระบบที่ส่งโปรแกรมไปยังผู้ใช้ปลายทาง: ข้อมูลเส้นทางกลับ (RPD) จากกล่องรับสัญญาณเคเบิลหรือดาวเทียม (เช่น Dish หรือ DirecTV) และการจดจำเนื้อหาอัตโนมัติ (ACR) จากทีวีอัจฉริยะที่เชื่อมต่ออินเทอร์เน็ต (เช่น Samsung หรือ Vizio)
ข้อมูล ACR
เทคโนโลยี ACR จะตรวจสอบภาพบนหน้าจอทีวีแทนการบันทึกการเปลี่ยนช่อง ภาพจะทำหน้าที่เหมือนลายนิ้วมือ ซึ่งจะถูกนำไปเปรียบเทียบกับห้องสมุดอ้างอิงขนาดใหญ่เพื่อระบุว่ารายการหรือโฆษณาคืออะไร ภาพจะถูกประทับเวลาเพื่อให้เข้าใจว่ากำลังเล่นอยู่เมื่อใด
ข้อมูล RPD
บันทึกว่ากล่องรับสัญญาณทีวีรับสัญญาณช่องใดและมีการเปลี่ยนแปลงช่องเมื่อใด ข้อมูลดังกล่าวสามารถนำไปจับคู่กับตารางรายการทีวีเพื่อระบุว่ารายการใดกำลังเล่นอยู่ ณ เวลานั้น และสามารถใช้ข้อมูลจากเซิร์ฟเวอร์โฆษณาของผู้ให้บริการหรือพันธมิตรเพื่อระบุว่าครัวเรือนนั้นรับชมโฆษณารายการใด
ในทั้งสองกรณี ผู้ใช้ปลายทางอนุญาตให้รวบรวมข้อมูลบนอุปกรณ์ของตน ความร่วมมือค่อนข้างสูงเนื่องจากการรวบรวมข้อมูลไม่เพียงแต่ช่วยวัดผลเท่านั้น แต่ยังช่วยส่งเสริมคุณลักษณะที่ต้องการ เช่น การตั้งค่าของผู้ใช้และคำแนะนำเนื้อหา ชุดข้อมูล RPD หรือ ACR อาจครอบคลุมอุปกรณ์ได้มากกว่า 30 ล้านเครื่อง
เหตุใด Big Data จึงเป็นเรื่องใหญ่?
เคยมีช่วงเวลาหนึ่งที่ผู้คนสามารถเลือกช่องรายการได้เพียงไม่กี่ช่อง เรตติ้งครัวเรือน 1 ต่อ 60 (เช่นตอนจบของ M*A*S*H ในปี 1983) หรือแม้กระทั่ง 40 (เช่นตอนจบ ของ Seinfeld ในปี 1998) ถือเป็นสิ่งที่ยากเกินจะเข้าใจสำหรับรายการที่มีสคริปต์ในปัจจุบัน เราอาศัยอยู่ในโลกที่แตกแยกมากขึ้น โดยมีรายการตัวเลือกรายการยาวเหยียด
ซึ่งถือเป็นเรื่องดีสำหรับผู้ชมทีวี แต่สำหรับการวิจัยแบบกลุ่มตัวอย่างแล้ว จะทำให้สิ่งต่างๆ ซับซ้อนขึ้น: ในกลุ่มตัวอย่างทั่วประเทศที่มีผู้ชม 101,000 คน รายการทีวีที่มีเรตติ้ง 0.2 จะถูกรับชมโดย 80 ครัวเรือน และอาจมีเพียงครัวเรือนเดียวในเขตมหานครแอตแลนตาหรือดัลลาส ด้วยอุปกรณ์นับสิบล้านเครื่องที่อยู่ภายใต้การวัด บิ๊กดาต้าทำให้บริษัทวิจัยสามารถรายงานการใช้งานทีวีในระดับที่ละเอียดกว่ามาก ทำให้ครอบคลุมรายการต่างๆ ได้มากขึ้นสำหรับผู้ชมจำนวนน้อยและหลากหลาย แต่บิ๊กดาต้าเพียงอย่างเดียวไม่ได้มีไว้เพื่อการวัดผู้ชม
ความท้าทาย #1: ข้อมูลขนาดใหญ่ไม่ได้เป็นตัวแทน
เพื่อทำธุรกรรมด้วยความมั่นใจ ผู้ซื้อและผู้ขายสื่อต้องมีโซลูชันการวัดผลที่สะท้อนประชากรในความหลากหลายทั้งหมด กลุ่มอายุ เชื้อชาติ กลุ่มชาติพันธุ์ และลักษณะทางประชากรและพฤติกรรมที่สำคัญอื่นๆ มากมาย ต้องมีอยู่ในข้อมูลพื้นฐานและเป็นสัดส่วนกัน
แต่ขนาดไม่ได้รับประกันความเป็นตัวแทน เมื่อวิเคราะห์จำนวนการติดตั้งในแผง Nielsen National TV เราพบว่าบ้านที่มี RPD มีอายุมากกว่าและมีความหลากหลายทางเชื้อชาติน้อยกว่าประชากรทั่วไป ตัวอย่างเช่น ครัวเรือนฮิสแปนิกมี จำนวนน้อยกว่า ประมาณ 30% และหัวหน้าครัวเรือนที่มีอายุต่ำกว่า 25 ปีแทบจะไม่มีอยู่ในชุดข้อมูล RPD เลย ในทางกลับกัน ชุดข้อมูล ACR มีอายุน้อยกว่าประชากรทั่วไปและมีสมาชิกในครัวเรือนมากกว่าด้วย การใช้การถ่วงน้ำหนักทางสถิติในข้อมูลขนาดใหญ่อาจช่วยปกปิดปัญหาได้ แต่ไม่สามารถชดเชยพฤติกรรมการรับชมที่ขาดหายไปและไม่ซ้ำใครของผู้ชมที่ไม่ได้รับการเป็นตัวแทนได้
ยิ่งไปกว่านั้น โซลูชันการวัดที่อาศัยข้อมูล RPD และ ACR แต่เพียงอย่างเดียวจะทำให้พลาดครัวเรือนที่รับชมผ่านระบบไร้สาย 2 และแบบสตรีมมิ่งเท่านั้น ซึ่งเป็นส่วนที่เพิ่มขึ้นเรื่อยๆ
ความท้าทาย #2: ข้อมูลขนาดใหญ่ไม่สามารถบันทึกพฤติกรรมการรับชมทั้งหมดได้
แม้ว่าจะมีครัวเรือนที่เป็นตัวแทน แต่ชุดข้อมูล RPD และ ACR ก็ไม่ได้บันทึกการรับชมจากกล่องรับสัญญาณทุกกล่องในบ้านหรือจากทีวีเครื่องอื่นๆ ในบ้านที่ไม่ใช่สมาร์ททีวี ทีวีเพิ่มเติมเหล่านี้อาจเล่นรายการต่างๆ ให้กับสมาชิกในครอบครัวที่แตกต่างกัน (เช่น รายการทำอาหารในครัวหรือรายการเด็กในห้องเล่น) ดังนั้นครัวเรือนที่ใช้บิ๊กดาต้าจึงไม่เพียงแต่ไม่เป็นตัวแทนของประชากรเท่านั้น แต่บิ๊กดาต้าเองก็ไม่ได้เป็นตัวแทนของการรับชมทั้งหมดที่อาจเกิดขึ้นในบ้านเหล่านั้นด้วย
ปัญหาที่น่าหงุดหงิดสำหรับบริษัทวิจัยที่พึ่งพา RPD ก็คือกล่องรับสัญญาณมักจะยังเปิดอยู่แม้ว่าทีวีที่เชื่อมต่ออยู่จะดับไปก็ตาม การปรับจูนแบบ "หลอก" ดังกล่าวอาจทำให้การรับชมจริงเกินจริงถึง 145% ถึง 260% ขึ้นอยู่กับผู้ให้บริการ มีโมเดลที่สามารถนำมาใช้เพื่อชดเชยได้ แต่หากไม่มีจุดอ้างอิง เช่น แผงที่แจ้งข้อมูลจากการรับชมจริง ก็อาจเป็นเรื่องยากที่จะพัฒนาฮิวริสติกที่ถูกต้อง
ACR ก็ไม่สามารถหลีกเลี่ยงปัญหาด้านคุณภาพของข้อมูลได้เช่นกัน แอปพลิเคชันสตรีมมิ่งสมาร์ททีวีบางตัวบล็อก ACR ไม่ให้บันทึกเนื้อหาบนหน้าจอในขณะที่แอปกำลังใช้งานอยู่ อาจดูเหมือนว่าทีวีปิดอยู่ แต่ในความเป็นจริงเนื้อหาถูกบล็อกโดยแอป และผู้ให้บริการส่วนใหญ่ตรวจสอบเพียงส่วนเล็กๆ ของโปรแกรมทั้งหมดที่มี จาก การวิเคราะห์ล่าสุด เราพบว่าปัจจุบันผู้ให้บริการ ACR ตรวจสอบเพียง 31% ของสถานีทั้งหมดที่มี และ 23% ของนาทีที่บันทึกไว้ยังคงมาจากสถานีที่ไม่ได้รับการตรวจสอบ เนื่องจากไม่มีลายนิ้วมืออ้างอิงเพื่อเปรียบเทียบ การรับชมดังกล่าวจึงไม่ได้รับการรายงาน
ความท้าทาย #3: ข้อมูลขนาดใหญ่ขาดข้อมูลประชากรผู้ชม
ผู้ให้บริการ RPD และ ACR รวบรวมข้อมูลการปรับแต่งจากอุปกรณ์หลายล้านเครื่อง แต่พวกเขาไม่ทราบว่าใครกำลังรับชม ซึ่งนั่นคือสิ่งที่ผู้โฆษณาต้องการในที่สุด
วิธีหนึ่งในการชดเชยข้อบกพร่องดังกล่าวคือการร่วมมือกับซัพพลายเออร์ข้อมูลประชากรบุคคลที่สาม บริษัทเหล่านี้เก็บรักษาบันทึกองค์ประกอบข้อมูลประชากรของทุกครัวเรือนในประเทศ และบริษัทวิจัยอาจพยายามสร้างแบบจำลองว่าใครกำลังรับชมอะไรจากข้อมูลการปรับจูนทั้งหมดในครัวเรือนหนึ่งๆ และองค์ประกอบข้อมูลประชากรของครัวเรือนนั้นๆ
รายการสำหรับเด็กเหรอ? นั่นต้องเป็นของเด็กในบ้าน การแข่งขันมวยปล้ำเหรอ? นั่นต้องเป็นของผู้ชมที่เป็นผู้ชาย หากไม่มีจุดอ้างอิงในชีวิตจริงเพื่อช่วยอัลกอริทึมการเรียนรู้ของเครื่อง คุณก็จะเห็นได้อย่างง่ายดายว่าการสร้างแบบจำลองประเภทนี้อาจล้มเหลวตรงไหน ไม่น่าแปลกใจที่การสร้างแบบจำลองประเภทนี้จะน่าเชื่อถือน้อยลงเรื่อยๆ ตามขนาดครัวเรือน และนั่นส่งผลให้ความแม่นยำของข้อมูลลดลงสำหรับครอบครัวที่มีขนาดใหญ่ เช่น ครอบครัวที่มีลูก ผู้ชมที่ไม่ใช่คนผิวขาว และผู้ชมที่อายุน้อยกว่า
ค่าคงอยู่ของข้อมูลแผง
สำหรับแบรนด์และบริษัทสื่อที่กำลังมองหาโซลูชันการวัดผลผู้ชมที่เสถียรและเชื่อถือได้ ความท้าทายที่ระบุไว้ข้างต้นถือเป็นสิ่งที่ไม่ควรทำ ข้อมูลในแผงข้อมูล มีความสำคัญอย่างยิ่งต่อการเอาชนะข้อจำกัดเหล่านี้
ที่ Nielsen เมื่อเราวิเคราะห์ข้อมูล RPD หรือ ACR เราก็สามารถระบุได้ว่าบ้านและอุปกรณ์ใดบ้างที่เป็นส่วนหนึ่งของแผงควบคุมของเรา และเปรียบเทียบข้อมูลการปรับจูนในบ้านเหล่านั้นกับพฤติกรรมการรับชมที่บันทึกโดยมิเตอร์ของเรา โดยการใช้แผงควบคุมของเราเป็นแหล่งข้อมูลจริงในบ้านเหล่านั้น เราสามารถระบุได้ว่าข้อมูลขนาดใหญ่เบี่ยงเบนไปจากความจริงตรงจุดใด และพัฒนารูปแบบที่แข็งแกร่งเพื่อปรับให้เข้ากับความผิดปกติเหล่านั้น
ตัวอย่างเช่น เราพัฒนาวิธีการในการหาว่าอุปกรณ์อยู่ที่ใดภายในบ้านและจับคู่ข้อมูลการปรับจูนกับผู้ชมเฉพาะราย โมเดลอื่นช่วยให้เราระบุได้ว่าทีวีปิดอยู่หรือไม่ในขณะที่กล่องรับสัญญาณทีวีเปิดอยู่ โมเดลอื่นสามารถจัดเรียงการอัปเดตอุปกรณ์ที่ลงทะเบียนเป็นการปรับจูนเพิ่มเติม รวมถึงสถานการณ์ที่อุปกรณ์ส่งคืนเหตุการณ์การปรับจูนมากกว่าหนึ่งครั้งในเวลาเดียวกัน
ผู้คน ไม่ใช่อุปกรณ์
ท้ายที่สุดแล้ว การวิจัยผู้ชมจะเกี่ยวกับผู้คน ไม่ใช่เกี่ยวกับอุปกรณ์
ไม่ต้องสงสัยเลยว่าข้อมูลขนาดใหญ่นั้นเป็นส่วนเสริมที่ยอดเยี่ยมสำหรับคลังอาวุธของนักวิจัยด้านสื่อ มันเปิดประตูสู่การรายงานที่ละเอียดกว่าที่เคยเป็นไปได้ในอดีต แต่โดยเนื้อแท้แล้ว ข้อมูลขนาดใหญ่มีข้อบกพร่อง มีอคติ และโดยพื้นฐานแล้วคือขาดวิสัยทัศน์ ข้อมูลขนาดใหญ่จะจับข้อมูลที่ปรับแต่ง ไม่ใช่ข้อมูลการดู
เพื่อให้บรรลุศักยภาพ จำเป็นต้องทำความสะอาด เติมข้อมูล ปรับเทียบ และเสริมด้วยข้อมูลประชากรที่เกี่ยวข้อง นั่นคือจุดที่ข้อมูลแผงเข้ามามีบทบาท การเรียนรู้ของเครื่องจักรทำงานได้ดีที่สุดด้วยข้อมูลการฝึกอบรมและการตรวจสอบที่แข็งแกร่ง และไม่มีข้อมูลการฝึกอบรมใดในอุตสาหกรรมที่ดีไปกว่าข้อมูลแผงที่เป็นตัวแทนระดับประเทศซึ่งเป็นหัวใจสำคัญของธุรกิจการวิจัยสื่อในปัจจุบัน
Need to Know ของ Nielsen ทบทวนพื้นฐานของการวัดผลผู้ชมและไขข้อข้องใจเกี่ยวกับหัวข้อที่ร้อนแรงที่สุดในอุตสาหกรรมสื่อ อ่านบทความทั้งหมด ได้ที่ นี่
บันทึก
1 คะแนนครัวเรือนคือเปอร์เซ็นต์ของครัวเรือนทั้งหมดในประเทศที่รับชมรายการใดรายการหนึ่ง
2 สามารถตั้งโปรแกรมได้โดยใช้ "สัญญาณ" จากเสาอากาศ การออกอากาศผ่านอากาศ (OTA) เป็นประเภททีวีแรกที่มีจำหน่าย