Kajian Perbandingan Ukuran Jarak dalam Penggerombolan Data Panel Nonlinier dengan Metode K-Means

Muayyad

View/Open

Cover (479.6Kb)

Fullteks (1.686Mb)

Lampiran (393.7Kb)

Date

2022

Author

Muayyad

Indahwati

Sadik, Kusman

Metadata

Show full item record

Abstract

Analisis penggerombolan digunakan untuk mengelompokkan objek berdasarkan kesamaan karakteristik antar objek. Analisis gerombol biasanya diterapakan pada data cross section akan tetapi pada penelitian ini analisis gerombol diterapkan pada data panel nonlinier dengan menggunakan metode k-means. Pemilihan metode jarak sangat berpengaruh terhadap optimasi penggerombolan. Data yang digunakan dalam penelitian ini ada dua yaitu data simulasi dan data riil. Sehingga, tahap pertama dilakukan simulasi data untuk mendapatkan metode jarak terbaik pada data panel nonlinier. Metode jarak yang digunakan adalah Euclidean, Manhattan, Maximum, Frechet, dan Dynamic Time Warping (DTW). Berdasarkan hasil evaluasi seluruh skenario data simulasi dapat ditarik kesimpulan bahwa jika objek datanya tidak tumpang tindih dan memiliki rentang waktu yang panjang maka sebaiknya menggunakan metode jarak maksimum. Akan tetapi, jika objek datanya tumpang tindih dan memiliki rentang waktu yang pendek maka sebaiknya menggunakan metode jarak dtw atau frechet. Selanjutnya, implementasinya pada data Indonesian Coronavirus Disease (COVID-19) dengan tujuan untuk mengelompokkan Provinsi berdasarkan jumlah kasus positif aktif. Hasilnya menunjukkan bahwa jumlah cluster yang optimal ketika dibentuk tiga gerombol dengan nilai kriteria Calinski Harabatz (CH) sebesar 143.459. Gerombol A beranggotakan 30 anggota Provinsi, Gerombol B tiga anggota Provinsi, sedangkan Gerombol C satu anggota yaitu Provinsi DKI Jakarta.

Cluster analysis is used to group objects based on the similarity of characteristics between objects. Cluster analysis is usually applied to cross-sectional data, but in this study, cluster analysis was applied to nonlinear panel data using the K-Means method. The selection of the right distance measure affects the optimization of clustering. The data used in this study are simulation data and real data, so the first stage of the research was carried out by simulating data to obtain the best distance measure on nonlinear panel data. The distance measure used is Euclidean, Manhattan, Maximum, Fréchet, and Dynamic Time Warping (DTW). Based on the evaluation results of all simulation data scenarios, it can be concluded that if the data objects do not overlap and have a long time span, it is better to use the maximum distance measure. If the data objects overlap and have a short time span, then we recommend using the DTW or Fréchet spacing method. Furthermore, the implementation is carried out on Indonesian Coronavirus Disease (COVID-19) data with the aim of grouping Provinces based on the number of active positive cases. The results show that the number of clusters is optimal when three clusters are formed, with the value of the Calinski Harabatz (CH) criteria of 143,459. Cluster A consists of 30 provinces, Cluster B consists of three provinces, while Cluster C consists of one province, DKI Jakarta Province. Keywords: Coronavirus Disease; Calinski-

URI

http://repository.ipb.ac.id/handle/123456789/113847

Collections

MT - Mathematics and Natural Science [4162]