Data Mining Dengan K-Means Clustering

Itu k- berarti pengelompokan algoritme adalah penambangan data dan alat pembelajaran mesin yang digunakan untuk mengelompokkan pengamatan ke dalam kelompok pengamatan terkait tanpa pengetahuan sebelumnya tentang hubungan tersebut. Dengan sampling, algoritma mencoba untuk menunjukkan di mana kategori, atau cluster, data milik, dengan jumlah cluster yang didefinisikan oleh nilai k.

Itu k- berarti algoritma adalah salah satu teknik pengelompokan yang paling sederhana dan umumnya digunakan dalam pencitraan medis, biometrik, dan bidang terkait. Keuntungan dari k- berarti pengelompokan adalah bahwa ia menceritakan tentang data Anda (menggunakan bentuk tanpa pengawasannya) daripada Anda harus menginstruksikan algoritma tentang data di awal (menggunakan bentuk yang diawasi dari algoritma).

Kadang-kadang disebut sebagai Algoritma Lloyd, khususnya dalam lingkaran ilmu komputer karena algoritma standar pertama kali diusulkan oleh Stuart Lloyd pada tahun 1957. Istilah "k-means" diciptakan pada tahun 1967 oleh James McQueen.

Bagaimana Fungsi Algoritma K-Means

Itu k- berarti algoritma adalah algoritma evolusioner yang mendapatkan namanya dari metode operasinya. Algoritma pengelompokan pengamatan menjadi k grup, di mana k disediakan sebagai parameter input. Ini kemudian menetapkan setiap pengamatan ke kelompok berdasarkan kedekatan pengamatan dengan rerata cluster. Maksud kelompok tersebut kemudian dihitung ulang dan prosesnya dimulai lagi. Berikut cara kerja algoritme:

Algoritma secara sewenang-wenang memilih k poin sebagai pusat klaster awal (sarana).
Setiap titik dalam dataset ditetapkan ke cluster tertutup, berdasarkan jarak Euclidean antara setiap titik dan setiap pusat cluster.
Setiap pusat klaster dikomputasi ulang sebagai rata-rata poin dalam klaster tersebut.
Langkah 2 dan 3 ulangi sampai kelompok berkumpul. Konvergensi dapat didefinisikan secara berbeda tergantung pada implementasi, tetapi biasanya berarti bahwa tidak ada pengamatan yang mengubah kluster ketika langkah 2 dan 3 diulang, atau bahwa perubahan tidak membuat perbedaan material dalam definisi kluster.

Memilih Jumlah Cluster

Salah satu kelemahan utama k- berarti pengelompokan adalah kenyataan bahwa Anda harus menentukan jumlah kelompok sebagai masukan untuk algoritme. Seperti yang dirancang, algoritma ini tidak mampu menentukan jumlah cluster yang sesuai dan bergantung pada pengguna untuk mengidentifikasi ini sebelumnya.

Misalnya, jika Anda memiliki sekelompok orang yang harus dikelompokkan berdasarkan identitas gender biner sebagai pria atau wanita, panggil k- berarti algoritma menggunakan input k = 3 akan memaksa orang menjadi tiga kelompok ketika hanya dua, atau masukan dari k = 2, akan memberikan fit yang lebih alami.

Demikian pula, jika sekelompok individu mudah dikelompokkan berdasarkan negara bagian asal dan Anda memanggil k- berarti algoritma dengan input k = 20, hasilnya mungkin terlalu umum untuk menjadi efektif.

Karena alasan ini, sering kali merupakan ide yang bagus untuk bereksperimen dengan nilai-nilai yang berbeda k untuk mengidentifikasi nilai yang paling sesuai dengan data Anda. Anda juga mungkin ingin menjelajahi penggunaan algoritma penggalian data lainnya dalam pencarian Anda untuk pengetahuan yang dipelajari mesin.