Analisis Cluster (Part 1)

Mengenal Analisis Cluster

Riza Purnaramadhan
4 min readApr 6, 2021
Photo by Lukas Blazek on Unsplash

Bismillahirrahmanirrahim, Assalamu’alaikum Warahmatullahi Wabarakatuh. Pada kesempatan kali ini saya akan membahasa sedikit tentang analisis cluster.

Clustering

Pada dasarnya analisis cluster akan menghasilkan sejumlah kelompok. Analisis cluster merupakan salah satu teknik yang bertujuan untuk mengidentifikasi secluster obyek yang mempunyai kemiripan (similarity) karakteristik tertentu yang dapat dipisahkan dengan cluster obyek lainnya, sehingga obyek yang berada dalam cluster yang sama relative lebih homogen daripada obyek yang berada pada cluster yang berbeda. Menurut buku Supranto (2004) yang berjudul “Analisis Multivariat, Arti dan Interpretasi”, cluster analysis merupakan suatu teknik yang digunakan untuk mengklasifikasi objek atau ke dalam cluster yang relatif homogen disebut cluster. Objek dalam cluster memiliki satu sama lain dan berbeda dengan objek cluster lainnya.

Proses Dasar Analisis Cluster

Menurut Santoso (2017) dasar dari analisis cluster adalah similarity (Fauziah, 2019). Maka adapun proses pengolahan data sehingga sekumpulan data mentah dapat diclusterkan menjadi satu atau beberapa cluster adalah sebagai berikut :
1. Menetapkan ukuran jarak antar data.
Ada tiga metode yang dapat diterapkan, yaitu ukuran korelasi, ukuran jarak,
dan ukuran asosiasi (Putri, 2017).
- Ukuran Korelasi
Ukuran ini dapat diterapkan pada data dengan skala metrik, namun jarang digunakan karena titik beratnya pada nilai suatu pola tertentu, padahal titik berat analisis kelompok adalah besarnya objek. Kesamaan antar objek dapat dilihat dari koefisien korelasi antar pasangan objek yang diukur dengan beberapa variabel.
- Ukuran Jarak
Ukuran jarak adalah ukuran kesamaan yang paling sering digunakan. Diterapkan untuk data berskala metrik. Bedanya dengan ukuran korelasi adalah bahwa ukuran jarak fokusnya pada besarnya nilai. Kelompok berdasarkan ukuran jarak lebih memiliki kesamaan nilai meskipun polanya berbeda sedangkan kelompok berdasarkan ukuran korelasi bisa saja tidak memiliki kesamaan nilai tetapi memiliki kesamaan pola. Ada beberapa tipe ukuran jarak antara lain jarak Manhattan, jarak Euclidean, dan jarak Mahalanobis (D2).
- Ukuran Asosiasi
Ukuran asosiasi dipakai untuk mengukur data berskala nonmetrik
(nominal atau ordinal)

2. Melakukan proses standardisasi data jika diperlukan.
Apabila cara mengukur jarak telah ditetapkan, maka yang perlu diperhatikan adalah apakah satuan data mempunyai perbedaan yang besar. Jika data memang mempunyai satuan yang berbeda secara signifikan, maka dilakukan proses standardisasi dengan mengubah data yang ada ke Z-Score. Proses standardisasi akan menjadikan dua data dengan perbedaan satuan yang lebar akan otomatis menjadi menyempit. Berdasarkan Walpole dan Mayers (1995), rumus standarisasi adalah sebagai berikut (Fauziah, 2019):

dengan,
𝑥: nilai data
𝜇: nilai rata − rata
𝜎: standar deviasi

3. Melakukan proses clustering
Prosedur pembentukan cluster terbagi menjadi 2, yakni metode hirarki dan metode non hirarki
- Metode hirarki. Metode ini memulai pengelompokkan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk seperti pohon dimana ada hirarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai paling tidak mirip. Secara logika semua objek pada akhirnya akan membentuk sebuah cluster.
- Metode non hirarki. Metode ini dimulai dengan menentukan terlebih dahulu jumlah cluster yang diinginkan (2 cluster, 3 cluster atau yang lain). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses hirarki.4. Melakukan penamaan cluster-cluster yang terbentuk
Melakukan interpretasi terhadap cluster yang terbentuk pada intinya memberi nama yang spesifik untuk menggambarkan isi cluter tersebut.
5. Melakukan validasi dan profiling cluster
Cluster yang terbentuk kemudian diuji apakah hasil tersebut valid. Kemudian, dilakukan proses profiling untuk menjelaskan setiap cluster berdasar profil tertentu.

Asumsi Pada Annalisis Cluster

Adapun asumsi untuk cluter analisis adalah :
- Santoso(2017) mengungkapkan bahwa sampel yang diambil benar-benar bisa mewakili populasi yang ada. Tidak ada ketentuan jumlah sampel yang representatif, meskipun demikian tetap diperlukan sejumlah sampel yang cukup besar agar proses clustering bisa dilakukan dengan benar (Fauziah, 2019).
- Multikolinieritas, multikolinearitas adalah adanya hubungan linear yang pasti diantara semua variabel atau beberapa. Menurut Gujarati (1978) dalam (Rahmawati, Abadyo, & Lestari) gejala multikolinearitas dapat dideteksi beberapa cara :
1. Menghitung koefisien korelasi sederhana antara sesama variabel bebas, jika terdapat koefisien korelasi sederhana yang mencapai atau melebihi 0,8 maka terjadi multikolinearitas.
2. Menghitung nilai tolerance atau VIF, jika nilai toleransi kurang dari 0,1 atau nilai VIF melebihi 10 maka menunjukkan bahwa terjadi multikolinearitas antar variabel.

Sekian dan terimakasih, semoga bermanfaat ☺

Referensi

- Fauziah, A. (2019). Hierarchical Cluster Analysis Industri Manufaktur Besar dan Sedang Berdasarkan Status Penanaman Modal. Studi Kasus: Industri Manufaktur Besar dan Sedang di Jawa Tengah Tahun 2015. Skripsi Jurusan Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Islam Indonesia.

- Putri, Z. R. (2017). Perbandingan Analisis Cluster Hierarki Aglomeratif dengan Menggunakan Metode Single Linkage, Complete Linkage dan Average Linkage. Studi Kasus: Indikator Kemiskinan Ditinjau dari Sektor Perumahan dan Lingkungan di Kabupaten Gunung Kidul Tahun 2015. Skripsi Jurusan Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Islam Indonesia.

- Rahmawati, L., Abadyo, & Lestari, T. E. (n.d.). Analisis Kelompok dengan Menggunakan Metode Hierarki untuk Pengelompokan Kabupaten/Kota di Jawa Timur Berdasar Indikator Kesehatan. Retrieved Maret Rabu, 2020, from http://jurnal-online.um.ac.id/data/artikel/artikel1768E9E20B8E53209B2AAE90144ED66D.pdf

--

--