ANALISIS DENGAN METODE K-MEANS CLUSTERING UNTUK DATASET "MTCARS" PADA RSTUDIO

May 04, 2023

DISINI ADA APA YAH ??

Jadi pada kesempatan kali ini aku mau sharing tentang Clustering pada Rstudio dengan menggunakan metode K-means clustering. Apasih K-means clustering itu ??

K-means clustering adalah metode non hirearki clustering yang menggunakan model centroid yang dimana centroid ini digunakan untuk menghitung jarak suatu obyek data terhadap centroid itu sendiri, dalam satu cluster jika mempunyai jarak terpendek terhadap centroid cluster tersebut. Metode Non Hirarkis dimulai dengan menentukan jumlah cluster terlebih dahulu yang diinginkan yang kemudian proses cluster dilakukan tanpa proses hirarki dengan tujuan mengelompokkan obyek berdasarkan kesamaan karakteristik diantara obyek tersebut.

YUKS KITA MULAI!!!

Data yang digunakan pada proses Clustering kali ini adalah data bawaan dari Rstudio yaitu data mtcars yang dimana dataset tersebut adalah bawaan dari Rstudio yang berisikan tentang spesifikasi kendaraan tahun 1970 seperti nama kendaraan, berat kendaraan, jumlah silinder, dll.

1.Mengaktifkan data yang digunakan






Berikut data yang akan digunakan :

  










Berikut ringkasan data dari data tersebut :      


   




2. Melakukan Uji Bartlettest untuk menguji apakah data bersifat heteroskedastisitas/homoskedastisitas.
Hasil yang diperoleh adalah :



Karena p-valueα maka Tolak H0 atau dapat dikatakan bahwa dengan tingkat kepercayaan 95% data yang ada menjelaskan bahwa data bersifat heteroskedastisitas.

3. Analisis K-means dengan indeks datanya terlebih dahulu dengan package factoextra untuk melihat visualisasi hasil cluster.





4. Lakukan standarisasi data, kemudian untuk melihat jarak masing-masing data gunakan perintah get_dist.















5.Membagi kedalam 3 cluster.



Maka output cluster sebagai berikut :









Terbentuk 3 cluster dengan jumlah mobil di setiap cluster adalah cluster 1 berisikan 7 mobil, cluster 2 berisi 14 mobil, dan cluster 3 berisikan 11 mobil. Sedangkan visualisasi datanya adalah sebagai berikut :









Bisa dilihat bahwa hasil cluster plot dari 3 cluster dengan standarisasi, pada gambar dot cluster tidak saling menimpa, Maka bisa dikatakan cluster sudah ideal.

6. Kita juga bisa menentukan cluster optimal dari k-means dengan menggunakan beberapa pendekatan yang dapat digunakan  untuk mendapatkan k optimal, dengan menggunakan metode gap statistics, within sum square, dan silhoute.
 



Hasil dari metode k optimal tersebut adalah :










Dengan menggunakan pendekatan gap statistics, dapat dilihat bahwa rekomendasi k optimal adalah saat k=2, ditandai dengan garis putus-putus vertikal yang berada pada sumbu x saaat k=2.

Kemudian untuk within sum of square.










Penentuan k optimal dengan melihat pergerakan grafik yang landai setelah grafik yang curam. Berdasarkan gambar diatas landai setelah banyaknya k ke 2. Sehingga dapat diduga k optimal menurut metode within sum of square adalah 2.

Kemudian pendekatan shilhoutte sebagai berikut:











Diatas merupakan penerapan untuk menemukan k optimal dengan pendekatan silhoute, dapat dilihat bahwa rekomendasi k optimal adalah saat k= 2, ditandai dengan garis vertikal yang berada pada sumbu x saat k=2.

SUDAH SELESAI.... JADI KESIMPULANNYA....

Berdasarkan hasil masing-masing plot visualisasi yang terbentuk dari ke-3 pendekatan cluster pada k optimalnya adalah 2. Dibuktikan dengan menggunakan pendekatan plot metode gap statistics, within sum square, dan silhoute menghasilkan garis vertikal pada masing-masing metode yaitu k optimal adalah 2.

Terima kasih ! cheers !!! 


You Might Also Like

0 komentar

Translate