Kajian Perbandingan Ukuran Jarak dalam Penggerombolan Data Panel Nonlinier dengan Metode K-Means
Abstract
Analisis penggerombolan digunakan untuk mengelompokkan objek berdasarkan kesamaan karakteristik antar objek. Analisis gerombol biasanya diterapakan pada data cross section akan tetapi pada penelitian ini analisis gerombol diterapkan pada data panel nonlinier dengan menggunakan metode k-means. Pemilihan metode jarak sangat berpengaruh terhadap optimasi penggerombolan. Data yang digunakan dalam penelitian ini ada dua yaitu data simulasi dan data riil. Sehingga, tahap pertama dilakukan simulasi data untuk mendapatkan metode jarak terbaik pada data panel nonlinier. Metode jarak yang digunakan adalah Euclidean, Manhattan, Maximum, Frechet, dan Dynamic Time Warping (DTW). Berdasarkan hasil evaluasi seluruh skenario data simulasi dapat ditarik kesimpulan bahwa jika objek datanya tidak tumpang tindih dan memiliki rentang waktu yang panjang maka sebaiknya menggunakan metode jarak maksimum. Akan tetapi, jika objek datanya tumpang tindih dan memiliki rentang waktu yang pendek maka sebaiknya menggunakan metode jarak dtw atau frechet. Selanjutnya, implementasinya pada data Indonesian Coronavirus Disease (COVID-19) dengan tujuan untuk mengelompokkan Provinsi berdasarkan jumlah kasus positif aktif. Hasilnya menunjukkan bahwa jumlah cluster yang optimal ketika dibentuk tiga gerombol dengan nilai kriteria Calinski Harabatz (CH) sebesar 143.459. Gerombol A beranggotakan 30 anggota Provinsi, Gerombol B tiga anggota Provinsi, sedangkan Gerombol C satu anggota yaitu Provinsi DKI Jakarta. Cluster analysis is used to group objects based on the similarity of characteristics
between objects. Cluster analysis is usually applied to cross-sectional data, but in this
study, cluster analysis was applied to nonlinear panel data using the K-Means method.
The selection of the right distance measure affects the optimization of clustering. The data
used in this study are simulation data and real data, so the first stage of the research was
carried out by simulating data to obtain the best distance measure on nonlinear panel
data. The distance measure used is Euclidean, Manhattan, Maximum, Fréchet, and
Dynamic Time Warping (DTW). Based on the evaluation results of all simulation data
scenarios, it can be concluded that if the data objects do not overlap and have a long time
span, it is better to use the maximum distance measure. If the data objects overlap and
have a short time span, then we recommend using the DTW or Fréchet spacing method.
Furthermore, the implementation is carried out on Indonesian Coronavirus Disease
(COVID-19) data with the aim of grouping Provinces based on the number of active
positive cases. The results show that the number of clusters is optimal when three clusters
are formed, with the value of the Calinski Harabatz (CH) criteria of 143,459. Cluster A
consists of 30 provinces, Cluster B consists of three provinces, while Cluster C consists
of one province, DKI Jakarta Province.
Keywords: Coronavirus Disease; Calinski-