blog Details

blog

PENGELOMPOKAN DATASET FILM MENGGUNAKAN ALGORITMA K-MEANS DENGAN OPTIMIZE PARAMETER GRID

PENGELOMPOKAN DATASET FILM MENGGUNAKAN ALGORITMA K-MEANS DENGAN OPTIMIZE PARAMETER GRID

Oleh:

Muhammad Syarifuddin

 

ABSTRAK

Industri perfilman Indonesia terus mengalami peningkatan dilihat dari banyaknya film-film yang muncul di bioskop maupun di televise saat ini dengan peningkatan box office sebesar 28 persen setiap tahun nya dalam kurun waktu empat tahun terakhir. Salah satu media yang digunakan untuk mendistribusikan film adalah internet. Informasi-informasi mengenai film seperti tema, genre, aktor, rating, sutradara, dll dapat ditemukan dengan mudah melalui internet. Dalam penelitian ini penulis akan melakukan pengklasifikasian tentang Film yang di tayangkan di televisi. Permasalahan bagaimana dapat mengelompokan jenis film yang akan ditanyangkan di statsiun TV. Penelitian ini menggunakan metode klasifikasi algoritma k-means dengan optimize parameter grid. Tujuannya adalah  untuk menggali informasi dalam memetakan atau mengelompokan jenis FilmTv dengan menggunakan algoritma K-means menjadi beberapa cluster serta  untuk mengetahui nilai akurasi terbaik dari hasil uji Davies Bouldin Index (DBI). Hasil yang didapatkan dari pengelompokan menggunakan k-means yaitu untuk mengetahui informasi pengelompokan dataset FilmTv terbaik berdasarkan Nilai Davies Bouldin Index yang dihasilkan dari algoritma K-means ini sebesar cluster0 dengan nilai 464.658. Dengan menghitung jarak antara rata-rata cluster diperoleh bahwa cluster 0 merupakan kelompok terbaik dengan jarak selisih terdekat sebesar 133.416.

 

Kata kunci: Pengelompokan, filmtv, k-means,,optimize parameter grid

ABSTRACT

The Indonesian film industry continues to experience improvement as seen from the number of films appearing in theaters and on television today with a box office increase of 28 percent every year in the last four years. One of the media used to distribute films is the internet. Information about films such as themes, genres, actors, ratings, directors, etc. can be found easily via the internet. In this research, the writer will classify films that are shown on television. This study uses the k-means algorithm classification method with optimize grid parameters with the aim of exploring information in mapping or classifying FilmTV types using the K-means algorithm into several clusters and to determine the best accuracy value from the Davies Bouldin Index (DBI) test results. The results obtained from grouping using k-means are to find out the best FilmTv dataset grouping information based on the Davies Bouldin Index value generated from the K-means algorithm for cluster 0 with a value of 464,658. By calculating the distance between the average clusters, it is found that cluster 0 is the best group with the closest difference distance of 133,416.

 

Keywords: Grouping, filmtv, k-means, optimize grid parameters

 

 

 

PENDAHULUAN

1.1         Latar Belakang Masalah

Industri perfilman Indonesia terus mengalami peningkatan dilihat dari banyaknya film-film yang tayang di bioskop maupun di televise, saat ini dengan peningkatan box office sebesar 28 persen setiap tahun nya dalam kurun waktu empat tahun terakhir. Konvensi film tahunan terbesar di Asia, CineAsia, menilai bahwa Indonesia merupakan pasar film yang paling potensial di kawasan Asia Pasifik. Pada 2017, data yang ada mencatat bahwa Asia Pasifik memberikan sumbangan box office sebanyak 16 miliar dolar AS atau meningkat 44 persen dalam kurun waktu lima tahun. Dimana Indonesia menjadi negara Asia Pasifik yang memiliki perkembangan yang paling signifikan sehingga membuat CineAsia 2018 menyebut Indonesia sebagai The Rise of the Sleeping Giant. Berbagai genre film kini hadir baik dilayar kaca ataupun di bioskop yang akhirnya memberikan warna lain dalam industri ini. Beberapa film Indonesia sukses memenangkan penghargaan di ajang 2 film Internasional, seperti Wiro Sableng dan Marlina si Pembunuh dalam Empat Babak (Annisa Ayunda Permata Sari, 2020)

Hal tersebut membuktikan bahwa pasar film Indonesia mempunyai potensi yang layak untuk dapat bersaing dengan film Negara lian. Sehingga perlu diamati bagaimana perkembangan film-film dari seluruh penjuru dunia yang populer atau banyak disukai saat ini. Dari awal lahirnya film hingga sekarang, film Hollywood dan Bollywood telah menguasai industri perfilman secara global. Meskipun saat ini film-film Asia mulai dapat bersaing dengan film Hollywood maupun Bollywood Agar suatu film dapat terus berkembang, tentunya membutuhkan penilaian-penilaian dari para penikmat film, untuk mengetahui selera film yang sesuai dengan para penikmat film.(Wijayatun & Sulistyo, 2018)

Penelitian yang dilakukan oleh Irene Mathilda Yulietha dkk, menyimpulkan bahwa semakin banyak data yang digunakan pada proses training, maka semakin tinggi nilai F1-Score yang dihasilkan oleh sistem dalam melakukan klasifikasi. Dalam kasus ini, nilai F1-Score yang paling baik pada pembagian data 90% data training dan 10% data testing dengan hasil 85.6%. Pada pengujian menggunakan linear separable dan non-linear separable didapatkan nilai F1-Score yang baik sebesar 84.9% pada kasus linear separable. Fungsi kernel yang ada pada SVM dapat digunakan pada kasus review film, yaitu kernel linear, kernel RBF, dan kernel polynomial. Dari ketiga kernel tersebut dapat diketahui bahwa kernel linear memiliki nilai F1-Score paling tinggi. Penggunaan negation handling memberikan pengaruh dalam analisis sentimen kasus review film. (Irene Mathilda Yulietha, Said Al Faraby, Adiwijaya, 2017)

Penelitian terdahulu yang dilakukan oleh: Ikhsan Subagyo, Lukman Dwi Yulianto,Wahyu Permadi, Arian Wahyu Dewantara, Anggit Dwi Hartanto, dalam jurnalnya yang berjudul : Sentiment Analisis Review Film Di IMDBMenggunakan Algoritma SVM,  menyimpulkan bahwa : dari eksperimen ini dari fakta hasil adalah pengujian klasifikasi menggunakan SVM dengan SGD memiliki nilai ketepatan yang hampir sama satu sama lain, nilai accuracy untuk SVM adalah 0.8762 dan untuk SGD adalah 0.87404 atau 87.620% dan 87.404% untuk max features 10000 dan untuk Confusion Matrix didapatkan hasil yang cukup memuaskan dengan kesalahan klasifikasi dapat dilihat pada label False Positive dan False Negative masing-masing memiliki persentase kurang dari 10% atau kurang dari 2000 kata dan untuk label True Positive dan True Negatif hamprr menyentuh 50% dengan nilai antara 40% - 45%. (Ikhsan Subagyo, Lukman Dwi Yulianto,Wahyu Permadi, Arian Wahyu Dewantara , Anggit Dwi Hartanto, 2019)

Data fakta yang dapat disajikan adalah data yang menyangkut Judul film jenis da nasal negara tersaji seperti pada tampilan tabel berikut:

FILMTV_ID

TITLE

YEAR

GENRE

DURATION

COUNTRY

2

Bugs Bunny's Third Movie

1982

Animation

76

United States

3

18 anni tra una settimana

1991

Drama

98

Italy

17

Ride a Wild Pony

1976

Romantic

91

United States

18

Diner

1982

Comedy

95

United States

20

A che servono questi quattrini?

1942

Comedy

85

Italy

21

The Uranian Conspiracy

1978

Spy

117

Italy

22

A ciascuno il suo

1967

Drama

93

Italy

23

Dead-Bang

1989

Crime

109

United States

24

A come assassino

1966

Thriller

80

Italy

26

At Close Range

1986

Drama

115

United States

Sumber: repository kaggle : https://www.kaggle.com/code/fabiendaniel/film-recommendation-engine

Berdasarkan latar belakang di atas, permasalahan yang didapat dalam penelitian ini adalah Belum tahu cara menganalisa parameter pengelompokan film menggunakan algoritma k-means Dengan Optimize Parameter Grid. Belum tahu bagaimana cara menginterpretasikan pengelompokan jenis film menggunakan algoritma k-means Dengan Optimize Parameter Grid, maka perlu dilakukan analisa terhadap centroid dalam menentukan pemberian nilai awal dalam melakukan proses awal clustering. Sehingga digunakan sebagai titik pusat cluster pada proses clustering algoritma K-Means.

Fokus masalah  dari penelitian ini adalah Bagaimana untuk menganalisa parameter pengelompokan film menggunakan algoritma k-means Dengan Optimize Parameter Grid.

Berdasarkan permasalahan data dan latarbelakang yang telah diutarakan maka penulis membuat penelitian dengan judul “Pengelompokan Dataset Film Menggunakan Algoritma K-Means Dengan Optimize Parameter Grid” dengan alasan yaitu dapat menganalisa parameter pengelompokan film menggunakan algoritma k-means dengan optimize Parameter grid. dan bagaimana menginterpretasikan pengelompokan jenis film menggunakan algoritma k-means Dengan Optimize Parameter Grid menghailkan nilai yang tebaik.

 

1.2         Rumusan Masalah

Berdasarkan latar belakang yang sudah dipaparkan oleh peneliti maka disusunlah rumusan masalah yang terkait dengan judul guna membatasi lingkup penelitian yaitu:

1.      Belum mengetahui bagaimana cara menganalisa parameter pengelompokan film menggunakan algoritma k-means Dengan Optimize Parameter Grid?

2.     Belum mengetahui bagaimana cara menginterpretasikan pengelompokan jenis film menggunakan algoritma k-means Dengan Optimize Parameter Grid?

1.3         Pertanyaan Penelitian

Berdasarkan identifikasi masalah yang telah dijelaskan maka pertanyaan peneliti dalam penelitian ini adalah:

1.      Bagaimana cara menganalisa parameter pengelompokan film menggunakan algoritma k-means Dengan Optimize Parameter Grid?

2.      Bagaimana cara menginterpretasikan pengelompokan jenis film menggunakan algoritma k-means Dengan Optimize Parameter Grid?

 

1.4         Tujuan Penelitian

Tujuan dari penelitian ini adalah untuk menyediakan layanan informasi dalam pengenalan menggunakan sistem pakar, antara lain:

1.      Untuk mengetahui cara menganalisa parameter pengelompokan film menggunakan algoritma k-means Dengan Optimize Parameter Grid?

2.     Untuk mengetahui agaimana cara menginterpretasikan pengelompokan jenis film menggunakan algoritma k-means Dengan Optimize Parameter Grid?

 

1.5         Manfaat Penelitian

1.5.1        Manfaat teoritis yang diperoleh dari penelitian ini adalah :

1.      Mengasah kemampuan yang telah didapat selama kuliah ke dalam penelitian yang sesungguhnya.

2.      Hasil dari penelitian ini diharapkan bisa menjadi referensi bagi penelitian lain, sehingga penelitian ini menjadi penelitian yang bermanfaat.

1.5.2        Manfaat praktis yang diperoleh dari penelitian ini adalah :

1.      Membantu analis dengan aplikasi tersebut untuk memudahkan proses analisis rumah tidak layak huni.

2.      Membantu para pengambil keputusan untuk menentukan tindakan selanjutnya dengan mengetahui pengelompokan film apasaja yang akan di tayangkan.

3.      Memberikan   informasi   bagaimana    cara    pemanfaatan  basis  data yang besar, sehingga menjadi data mining yang bisa mencari solusi pada pengelompokan jenis film layak tayang..

1.6         Batasan Masalah

Berdasarkan identifikasi masalah, akar masalah dan faktor-faktor yang mempengaruhi seperti yang telah dijelaskan diatas, agar pembahasan penelitian ini menjadi lebih focus maka penelitian ini akan dibatasi menjadi 3, yaitu :

1.      Penelitian ini mengambil sumber data dari repository Kaggle

2.      Fokus masalah pada penelitian ini adalah pengelompokan data film yang tayang di statsiun TV

3.      Metode yang digunakan yaitu  algoritma k-Means clustering.


1.7     Kerangka Pemikiran


Gambar 1.1: Kerangka berpiki


DAFTAR  PUSTAKA

Abarca, Roberto Maldonado. (2021). Aplikasi k-means untuk pengelompokan sekolah dasar (sd) dan sederajat berdasarkan rata-rata hasil ujian nasional sekabupaten jember. nuevos sistemas de comunicación e información, 2013-2015.

Adi Sucipto1. (2019). KLASTERISASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA K-MEANS. Jurnal Science Tech, 50-56.

Ahmad Jurnaidi Wahidin, Dana Indra Sensuse. (2021). Perbandingan Algoritma K-Means, X-Means Dan K-Medoids Untuk Klasterisasi Awak Kabin Lion Air. urnal ICT : Information Communication & Technology, 298-302.

Ai Rohmah, Falentino Sembiring, Adhitia Erfina. (2021). IMPLEMENTASI ALGORITMA K-MEANS CLUSTERING ANALYSIS UNTUK MENENTUKAN HAMBATAN PEMBELAJARAN DARING (STUDI KASUS: SMK YASPIM GEGERBITUNG). SISMATIK (Seminar Nasional Sistem Informasi dan Manajemen Informatika), 290-298.

Annisa Ayunda Permata Sari. (2020). IMPLEMENTASI METODE IMPROVED K-MEANS DENGAN ALGORITMA DBSCAN UNTUK PENGELOMPOKAN FILM. Repository Universitas Indoensia.

Asep Muhidin, Indarwista Baragigiratri. (2017). PEMETAAN PENDUDUK CALON PENERIMA BANTUAN RENOVASI RUMAH DESA PESANGKALAN MENGGUNAKAN ALGORITMA CLUSTERING K-MEANS. Paper Knowledge . Toward a Media History of Documents.

Benri Melpa Metisen, Herlina Latipa Sari. (2017). ANALISIS CLUSTERING MENGGUNAKAN METODE K-MEANS DALAM PENGELOMPOKKAN PENJUALAN PRODUK PADA SWALAYAN FADHILA. Jurnal Media Infotama, 110-118.

Bustami Yusuf, Rike Mahara, Hendri Ahmadian , Sri Wahyuni4, Khairan AR. (2022). Analisis Clustering Penduduk Miskin Di Provinsi Aceh Menggunakan Algoritma K-Means Dan X-Means. Jurnal Nasional Komputasi dan Teknologi Informasi (JNKTI), 26-35.

Deni Triyansyah dan Devi Fitrianah. (2018). Analisis Data Mining Menggunakan Algoritma K-Means Clustering Untuk Menentukan Strategi Marketing. Jurnal Telekomunikasi dan Komputer, 163.

Erene Gernaria Sihombing. (2017). Klasifikasi Data Mining pada Rumah Tangga Menurut Provinsi dan Status Kepemilikan Rumah Kontrak/Sewa Menggunakan K-Means Clustering Method. Computer Engineering, System and Science Journal, 74-82.

Faiza Rini1), Novhirtamely Kahar2), 3)Juliana. (2016). Penerapan Algoritma K-Means Pada Pengelompokan Data Siswa Baru Berdasarkan Jurusan Di Smk Negeri 1 Kota Jambi Berbasis Web. Seminar Nasional APTIKOM, 94-99.

Fenty Eka M. Agustin, Ardini Fitria, Anif Hanifah S. (2018). IMPLEMENTASI ALGORITMA K-MEANS UNTUK MENENTUKAN KELOMPOK PENGAYAAN MATERI MATA PELAJARAN UJIAN NASIONAL (STUDI KASUS: SMP NEGERI 101 JAKARTA). JURNAL TEKNIK INFORMATIKA , 73-78.

Hasyrif SY, Rismayani, Asrul Syam. (2019). Data Mining Menggunakan Algoritma K-Means Pengelompokan Penyebaran Diare di Kota Makassar. ISITI : Seminar Ilmiah Sistem Informasi dan Teknologi Informasi, 73-82.

Ikhsan Subagyo, Lukman Dwi Yulianto,Wahyu Permadi, Arian Wahyu Dewantara , Anggit Dwi Hartanto. (2019). Sentiment Analisis Review Film Di IMDBMenggunakan Algoritma SVM. URNAL SISTEM INFORMASI DAN TEKNOLOGI INFORMASI ?, 47-56.

Irene Mathilda Yulietha, Said Al Faraby, Adiwijaya. (2017). KLASIFIKASI SENTIMEN REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE. e-Proceeding of Engineering :, 4740-4750.

Istiqomah Sumadikarta, Evan Abeiza. (2018). PENERAPAN ALGORITMA K-MEANS PADA DATA MINING UNTUK MEMILIH PRODUK DAN

Mining Kluster Pada Rumah Tangga Yang Memiliki Akses Hunian Layak Berdasarkan Provinsi. Kajian Ilmiah Informatika dan Komputer, 228-234.

Ni Putu Eka Merliana, Ernawati, Alb. Joko Santoso. (2018). ANALISA PENENTUAN JUMLAH CLUSTER TERBAIK PADA METODE K-MEANS CLUSTERING. UNISBANK (SENDI_U), 978-979.

Nur Wakhidah. (2015). Clustering Menggunakan K-Means Algorithm. Jurnal Transformatika, 33.

Olivia Immanuela Massie1, Tesa Nur Padilah2i. (2021). Klasterisasi Angka Usia Muda Melek TIK Berdasarkan Algoritma K-Means Menurut jumlah Provinsi Indonesia. Jurnal komputer,surnal sains, 759-767.

R. P. A. Sormin, F. Y. Rumlawang, L. J. Sinay. (2017). Aplikasi Metode Fuzzy C-Means Untuk Pengklasteran Kelayakan Rumah Aplication of Fuzzy C-Means Algorithm for Clustering House Feasibility. Jurnal Ilmu Matematika dan Terapan, 135-146.

Rifki Adhitama, Auliya Burhanuddin , Ridho Ananda. (2020). Penentuan Jumlah Cluster Ideal Smk Di Jawa Tengah Dengan Metode X-Means Clustering Dan K-Means Clusterin. JIKO (Jurnal Informatika dan Komputer), 1-5.

S Ramadani, I Ambarita, A M H Pardede. (2019). Metode K-Means Untuk Pengelompokan Masyarakat Miskin Dengan Menggunakan Jarak Kedekatan Manhattan City Dan Euclidean ( Studi Kasus Kota Binjai ). Information System Development (ISD), 15-29.

Santi Ika Murpratiwi, I Gusti Agung Indrawan, Arik Aranta. (2021). Analisis Pemilihan Cluster Optimal Dalam Segmentasi Pelanggan Toko Retail. Jurnal Pendidikan Teknologi dan Kejuruan, 152.

Sugiono1, Siti Nurdiani2 , Safitri Linawati3 , Rizky Ade Safitri4, Elin Panca Saputra5. (2019). Pengelompokan Perilaku Mahasiswa Pada Perkuliahan E-Learning dengan K-Means Clustering. Jurnal Kajian Ilmiah Universitas Bhayangkara .

Sulistiyawati, Ari, Supriyanto, Eko. (2021). Implementasi Algoritma K-means Clustring dalam Penetuan Siswa Kelas Unggulan. Implementasi Algoritma K-means Clustring dalam Penetuan Siswa Kelas Unggulan, 25.

Suputra, W A. (2021). Klasterisasi Hasil Ujian Nasional SMA/MA dengan Algoritma K-Means. Wahana Matematika dan Sains: Jurnal …, 22-30.

Tiar Pandapotan Purba, dan Topan Himawan. (2021). Pemenuhan Rumah Layak Huni di Provinsi Riau. Jurnal Penataan Ruang, 98.

Wahidin, A. J., & Sensuse, D. I. (2021). Perbandingan Algoritma K-Means, X-Means Dan K-Medoids Untuk Klasterisasi Awak Kabin Lion Air. Jurnal ICT : Information Communication & Technology, 20(2), 298–302. https://doi.org/10.36054/jict-ikmi.v20i2.387. (2021). Perbandingan Algoritma K-Means, X-Means Dan K-Medoids Untuk Klasterisasi Awak Kabin Lion Air. Jurnal ICT : Information Communication & Technology, 298-302.

Yusma Elda1, Dkk. (2021). Klasterisasi Penempatan Siswa yang Optimal untuk Meningkatkan Nilai Rata-Rata Kelas Menggunakan K-Means. Jurnal Informasi dan Teknologi, 103-108.

 

 

Social Share :