Clustering secara sederhana merupakan kegiatan mengelompokkan data ke dalam beberapa kelompok (cluster) yang memiliki kesamaan atau kemiripan fitur. Clustering merupakan salah satu teknik yang digunakan untuk mengelompokkan data. Clustering secara umum bertujuan untuk menemukan kemiripan atau perbedaan diantara pola – pola yang ada dan memperoleh analisa atau kesimpulan dari kelompok – kelompok tersebut. Pada pengenalan pola, clustering merupakan salah satu metode yang tergolong kedalam unsupervised learning.
Pengelompokan (Clustering) merupakan cara sederhana bagaimana manusia menyederhanakan banyaknya data atau informasi sehingga menjadi informasi yang terstruktur dalam bentuk kelompok – kelompok. Sebagai contoh, pada kehidupan kita dapat kita jumpai bola tenis, bola baseball, bola voli, sepatu bola, sepatu lari dan sepeda motor. Secara alamiah kita akan mengelompokkan bola tenis, bola baseball dan bola voli ke dalam satu kelompok, sepatu bola dan sepatu lari ke dalam kelompok kedua dan sepeda motor ke kelompok ketiga. Sehingga terbentuk lah tiga kelompok berbeda, yang mana kelompok pertama dapat kita sebut kelompok bola, kelompok kedua kelompok sepatu dan kelompok ketiga adalah sepeda motor. Berdasarkan apakah kita mengelompokkan objek – objek tersebut? Kemiripan fitur! Baik itu dalam dari segi bentuk, ukuran, dsb. Beberapa kegunaan dan manfaat dari clustering yaitu :
- Menyederhanakan informasi.
- Memperoleh karakteristik dari populasi.
- Dapat digunakan dalam proses klasifikasi dan identifikasi.
- dan lain sebagainya.
Pada era teknologi seperti saat sekarang ini, clustering telah banyak di aplikasikan pada kehidupan nyata seperti :
- Mesin / Sistem Rekomendasi
- Segmentasi Pasar dan Customer
- Social Network Analysis
- Search Result Clustering
- Biological Data Analysis, Medical Imaging Analysis and Identification
source : https://www.analyticssteps.com/blogs/5-clustering-methods-and-applications
Clustering menggunakan konsep kemiripan dalam proses pengelompokkan data ke dalam cluster - cluster tertentu. Komputasi kemiripan yang digunakan biasanya menggunakan metode perhitungan jarak seperti euclidean distance, manhattan distance, dan perhitungan jarak lainnya. Sebuah data akan dikelompokkan ke dalam cluster yang mana berisikan data - data yang mirip dengan data tersebut. Semakin tinggi tingkat kemiripan anggota yang terdapat pada sebuah cluster maka semakin baik cluster tersebut. Dan juga semakin rendah kemiripan antar cluster yang berbeda juga menunjukkan semakin baik metode clustering yang digunakan.
Terdapat beberapa hal yang harus diperhatikan pada clustering :
- Feature Selection, fitur atau atribut dari objek harus dipilih dengan baik sesuai dengan tujuan dari pengelompokan.
- Proximity Measure, ukuran pengaruh antara satu fitur dengan fitur lainnya agar tidak ada fitur yang terlalu dominan terhadap fitur lainnya.
- Clustering Criterion, pemilihan kriteria dari proses clustering.
- Clustering Algorithm, pemilihan algoritma clustering.
- Validation Of Results, Validasi hasil clustering.
- Interpretation of Results, interpretasi dari hasil clustering yang diperoleh.
Metode clustering terbagi menjadi beberapa jenis berdasarkan dari pendekatan yang digunakan pada saat proses clustering, secara sederhana metode clustering dapat dibagi menjadi beberapa jenis yaitu :
- Sequential Algorithms, algoritma yang melakukan proses clustering secara linear dimana setiap data hanya akan dikelompokkan sekali apakah akan masuk kedalam kelompok yang sudah ada atau membentuk kelompok yang baru.
- Hierarchical Algorithms, pengelompokan data ke dalam cluster yang membentuk hirarki.
- Density Based Algorithms, Metode pengelompokan ini mengenali kelompok wilayah padat yang memiliki beberapa kesamaan dan berbeda dari wilayah ruang dengan kepadatan rendah.
- Partitioning Algorithms, Mempartisi objek menjadi k jumlah cluster di mana setiap partisi membuat/mewakili satu cluster, cluster ini memiliki properti tertentu seperti setiap cluster harus terdiri dari setidaknya satu objek data dan setiap objek data harus diklasifikasikan ke tepat satu cluster.
- Grid-Base Algorithms, ruang data diatur ke dalam jumlah sel yang terbatas untuk membentuk blok area seperti grid.
- Model-Based Algorithms, Metode ini mengaplikasikan model matematika yang telah ditentukan dan kemudian mengoptimalkan data sambil mengasumsikan bahwa data adalah dalam bentuk distribusi probabilitas dan menghitung jumlah cluster berdasarkan statistik standar.