Lewati ke konten
Wawasan > Media

Menggunakan Pembelajaran Mesin untuk Memprediksi Peringkat TV Masa Depan Dalam Lanskap Media yang Berkembang

5 menit baca | Jingsong Cui, VP, dan Scott Sereday, Manajer, Ilmu Pengetahuan Data, Nielsen | Oktober 2016

Perusahaan media dan pengiklan mengandalkan peringkat TV setiap hari untuk mengukur keberhasilan acara TV, memverifikasi bahwa ukuran dan komposisi pemirsa mereka memenuhi target pembelian media, dan membuat-baik jika jumlahnya gagal. Dari sudut pandang itu, peringkat TV adalah metrik yang mengukur masa lalu, atau paling banter saat ini, dari menonton TV.

Tetapi perusahaan media juga menggunakan peringkat untuk memprediksi masa depan. Peringkat menetapkan harapan dan memengaruhi keputusan pemrograman dari satu musim ke musim berikutnya. Mereka juga membantu menetapkan tarif iklan jauh sebelum kampanye mungkin benar-benar ditayangkan. Di AS, misalnya, jaringan TV menjual sebagian besar inventaris iklan mereka untuk musim ini di "muka", acara yang mereka selenggarakan hanya setahun sekali (antara Maret dan Mei). Ini berarti bahwa tarif untuk iklan yang Anda lihat di TV hari ini mungkin telah dinegosiasikan lebih dari setahun yang lalu.

Untuk memprediksi peringkat acara dalam tiga, enam, atau 12 bulan, para peneliti menggunakan model peramalan. Banyak dari model-model tersebut telah digunakan selama bertahun-tahun dengan sedikit atau tanpa modifikasi. Mereka telah berhasil memprediksi peringkat dan telah melakukan pekerjaan yang baik dalam mendukung pertukaran miliaran dolar iklan setiap tahun. Tetapi perubahan cepat dalam ekosistem TV membuatnya semakin sulit untuk mengembangkan model yang andal.

Pertimbangkan daftar inovasi teknologi terbaru di industri media: Pemirsa semakin banyak menggunakan laptop, tablet, dan ponsel cerdas mereka untuk menonton konten; layanan streaming seperti Netflix dan Amazon Prime telah mencapai adopsi massal; perangkat baru yang terhubung ke TV membentuk kembali pengalaman layar lebar. Orang-orang mengubah waktu, streaming, dan menonton pesta—mereka lebih mengendalikan media yang mereka konsumsi daripada sebelumnya. Perilaku mereka tidak hanya lebih kompleks, tetapi juga lebih tidak terduga.

Di Nielsen, kami memiliki akses ke banyak sumber daya data yang mengukur bagaimana orang mengonsumsi media. Sebelum menambahkan data TV digital ke dalam campuran (sebagai input serta output dari model peramalan kami), kami ingin memeriksa apakah mungkin untuk terlebih dahulu meningkatkan bagaimana kami memprediksi peringkat untuk TV tradisional, menggunakan data TV tradisional sebagai satu-satunya sumber kami. Berkat Nielsen National People Meter, kami memiliki data berkualitas tinggi yang telah ada sejak bertahun-tahun yang lalu, dengan metodologi yang konsisten dan panel pemirsa yang representatif secara nasional.

Kami memanfaatkan data yang kaya ini pada tingkat yang sangat rinci untuk membuat model prediktif baru: Variabel seperti peringkat Live+7 historis (yaitu, peringkat yang mencakup pemirsa langsung, serta pemirsa hingga tujuh hari setelah siaran awal), peringkat C3 (peringkat komersial yang mencakup pemutaran hingga tiga hari setelahnya), HUT (persentase rumah tangga yang menggunakan televisi kapan saja), jangkauan, peringkat rumah tangga, peringkat demografis, hari dalam seminggu, jam dalam sehari, dan identitas jaringan adalah beberapa informasi penting yang kami gunakan sebagai variabel input; dan kami memanfaatkan pembelajaran mesin canggih dan algoritme statistik (seperti regresi punggungan, hutan acak, dan peningkatan gradien) untuk mengidentifikasi hubungan data yang relevan.

Bekerja sama dengan klien, kami melakukan sejumlah studi proof-of-concept untuk menguji dan memvalidasi model yang kami buat. Kami merancang model kami untuk memprediksi peringkat masa depan pada tingkat terperinci (blok jam untuk kelompok demografis kecil, seperti pria berusia 2-5 tahun atau perempuan berusia 65 tahun ke atas), tetapi kami juga menggulung angka-angka tersebut ke tingkat jaringan. Untuk memahami bagaimana kinerja model kami terhadap kenyataan, kami menggunakan periode penahanan dua perempat untuk membandingkan perkiraan kami serta perkiraan internal klien kami dengan data peringkat sebenarnya. Misalnya, kami secara akurat memprediksi peringkat Live+7 rata-rata sebesar 1,94 untuk orang berusia 30-34 tahun di Jaringan A antara pukul 9 malam dan 10 malam pada hari Selasa selama kuartal kedua 2015, hanya berdasarkan data historis hingga kuartal pertama tahun 2014. Prediksi sangat akurat di tingkat jaringan, di mana kami memiliki 99% R-kuadrat (persentase varians dijelaskan), tetapi mereka lebih sulit pada tingkat bagian hari blok jam yang lebih terperinci, atau untuk beberapa kelompok demografis yang lebih kecil. Bahkan pada tingkat blok jam, R-kuadrat model kami masih menduduki puncak 95% dan secara signifikan mengungguli model yang telah diandalkan klien kami hingga saat itu. Di lebih dari 2.000 proyeksi siang hari, prakiraan kami 41% lebih akurat untuk R-kuadrat dan 16% lebih akurat untuk kesalahan persentase absolut tertimbang (WAPE)—dua ukuran utama dalam memperkirakan akurasi.

Kami akan membagikan detail lebih lanjut tentang model bukti konsep tersebut dan tes yang kami lakukan dalam makalah yang akan datang. Kesimpulan utama dari proyek ini adalah bahwa kami dapat mengubah data perilaku yang besar dan berisik menjadi fitur pemodelan prediktif dan melakukannya dengan cara yang sangat efisien (dan otomatis). Tetapi setiap titik desimal dari titik peringkat memiliki implikasi keuangan yang sangat besar, dan kita perlu terus mendorong amplop dengan menambahkan variabel input baru (seperti pengeluaran iklan atau data khusus program), membangun cara untuk dengan cepat beradaptasi dengan perubahan dalam paket pemrograman dan jajaran saluran, menguji bentuk baru regresi dan algoritma klasifikasi, atau bahkan menggabungkan beberapa model yang menjanjikan menjadi satu.

Meskipun proyek ini berfokus pada TV tradisional, menarik untuk dicatat bahwa dampak data digital tercermin dalam perubahan peringkat TV dalam data historis — dan dengan demikian juga dalam prediksi kami. Tetapi ini adalah pengukuran tidak langsung dari efek kumulatif dan tidak ada pengganti untuk model yang akan fokus secara khusus pada tampilan over-the-top, misalnya, atau melihat pada aplikasi smartphone. Selain langkah-langkah selanjutnya yang diuraikan di atas, penggunaan data digital akan menjadi elemen penting untuk meningkatkan perkiraan kami di masa mendatang.

Pada akhirnya, kita juga perlu menyadari bahwa setiap klien memiliki pengetahuan yang mendalam tentang program-programnya, serta intuisi yang kuat tentang bagaimana program-program tersebut dapat diterima di masa depan. "Elemen manusia" itu tidak boleh diabaikan ketika kita menyusun model prediktif dan dapat sangat berharga ketika bereaksi terhadap perubahan signifikan dan tak terduga di pasar. Sistem yang mengintegrasikan data yang kaya, algoritme pembelajaran mesin yang kuat, dan keahlian domain dapat mencapai hasil yang lebih baik daripada yang dapat dicapai dengan sendirinya.