Evaluasi Hasil Penggerombolan Data Kesejahteraan Rakyat di Indonesia menggunakan Analisis Gerombol dan Bicluster
Date
2024Author
Marifni, Laradea
Sumertajaya, I Made
Syafitri, Utami Dyah
Metadata
Show full item recordAbstract
Di Indonesia, pandemi Covid pertama kali muncul pada awal Maret tahun 2020. Hal ini menyebabkan 3 hingga 4 juta orang kehilangan pekerjaan. Potensi pengangguran akan semakin besar, oleh karena itu kehadiran negara dalam berbagai sektor kehidupan masyarakat menjadi sangat penting. Pemerintah perlu memiliki kapasitas untuk menjamin kesejahteraan masyarakat, menyediakan akses pendidikan yang luas, menciptakan peluang kerja, membangun infrastruktur yang mendukung aktivitas sosial ekonomi, menjaga lingkungan yang sehat, dan memastikan keamanan yang merata bagi seluruh penduduk. Badan Pusat Statistik (BPS) mengeluarkan publikasi tahunan tentang indikator kesejahteraan masyarakat. Pada penelitian ini dilakukan penggerombolan terhadap indikator kesejahteraan masyarakat tahun 2020 yang berisi 34 provinsi berdasarkan kemiripan karakteristik kesejahteraan rakyat. Dalam melakukan penggerombolan terdapat dua kelompok pendekatan, yaitu pendekatan dengan metode analisis gerombol (gerombol klasik) dan pendekatan bicluster. Pada penelitian ini akan dilihat bagaimana kinerja dari masing-masing pendekatan tersebut. Menganalisis penggerombolan data kesejahteraan masyarakat Indonesia perlu menjadi perhatian utama untuk memahami pola dan karakteristik kesejahteraan di setiap wilayah atau provinsi. Analisis gerombol yang umumnya digunakan adalah penggerombolan satu arah yang mengasumsikan bahwa objek-objek memiliki kemiripan karakteristik di semua baris atau kolom, sehingga objek pada baris digerombolkan berdasarkan kemiripan pada kolom atau peubah pada kolom digerombol berdasarkan kemiripan pada baris. Metode penggerombolan seperti ini masih memiliki keterbatasan ketika digunakan untuk data dua arah yang ingin mengeksplorasi hubungan antara kelompok objek tertentu dengan kelompok peubah tertentu secara bersama-sama. Biclustering merupakan perkembangan dari analisis penggerombolan yang bertujuan untuk menggerombolkan data dari dua dimensi secara simultan. Terdapat tiga metode analisis utama dalam penelitian ini, yakni analisis gerombol menggunakan K-Means, analisis bicluster (biclustering) menggunakan algoritme Cheng and Church (CC), dan evaluasi kinerja hasil analisis gerombol dan biclustering. Analisis gerombol dan Biclustering dilakukan secara terpisah pada setiap beberapa ambang batas yang telah ditentukan sehingga diperoleh hasil penggerombolan pada ambang batas optimal untuk setiap algoritma. Hasil dari masing-masing algoritma tersebut dapat digunakan untuk melihat pola kesejahteraan rakyat di Indonesia. Sementara itu, evaluasi kinerja hasil masing masing algoritma baik K-Means maupun CC dilakukan dalam bentuk kajian keterbandingan hasil penggerombolan dari sisi keanggotaan, karakteristik, sebaran hasil penggerombolan dan hasil ambang batas yang digunakan yaitu Mean Squared Residu (MSR). Analisis gerombol menggunakan algoritma K-Means menghasilkan gerombol yang optimal dengan hasil k=4, dan MSR sebesar 0,42251 sedangkan biclustering menggunakan algoritme CC menghasilkan bicluster optimal pada ambang batas (δ) = 0.1 dengan nilai MSR sebesar 0,098 dan jumlah bicluster yang terbentuk sebanyak 4. Walaupun sama-sama menghasilkan 4 gerombol, analisis gerombol dan analisis bicluster terdapat beberapa perbedaan pada setiap gerombol yang ada dalam masing-masing analisis. Analisis gerombol yang menggunakan algoritma K-Means menghasilkan 4 gerombol yang masing-masing anggotanya berjumlah 17, 7, 9 dan 1 sedangkan analisis bicluster yang menggunakan algoritma CC menghasilkan 4 bicluster yang anggotanya masing-masing 15x12, 9x10, 7x7, 3x10. Gerombol 1 hasil metode K-Means dan hasil metode CC secara keseluruhan mendominasi pulau Sumatera dan Kalimantan, Tetapi pada metode CC pulau Kalimantan masih terdapat provinsi yang berada dalam gerombol 2, sedangkan pada metode K-Means semua provinsi yang ada di Kalimantan terdapat pada gerombol 1 sedangkan Gerombol 2 berisi provinsi-provinsi yang ada di pulau Jawa baik metode K-means maupun CC. Gerombol 3 tersebar di Papua, Sulawesi dan Sumatera pada kedua metode. Terakhir gerombol 4 berisi provinsi Papua untuk K Means dan 3 provinsi yatu Papua, DIY, dan NTT untuk metode CC. Berdasarkan nilai MSR hasil gerombol dengan ambang batas yang optimal, kualitas hasil gerombol Algotima CC cenderung lebih baik dibanding hasil gerombol algotima K-Means. In Indonesia, the Covid pandemic first appeared in early March 2020. This caused 3 to 4 million people to lose their jobs. The potential for unemployment will become greater, therefore the presence of the state in various sectors of society's life will become very important. The government needs to have the capacity to guarantee community welfare, provide broad access to education, create job opportunities, build infrastructure that supports socio-economic activities, maintain a healthy environment, and ensure equal security for the entire population. The Central Statistics Agency (BPS) issues an annual publication on indicators of community welfare. In this research, community welfare indicators for 2020 were grouped, containing 34 provinces, based on similarities in people's welfare characteristics. In carrying out clustering, there are two groups of approaches, namely the approach using the cluster analysis method (classical cluster) and the bicluster approach. In this research, we will see how each of these approaches performs. Analyzing aggregate data on the welfare of Indonesian society needs to be a primary concern to understand the patterns and characteristics of welfare in each region or province The cluster analysis that is generally used is one-way clustering which assumes that objects have similar characteristics in all rows or columns, so that objects in rows are grouped based on similarity in columns or variables in columns are clustered based on similarity in rows. This clustering method still has limitations when used for two-way data that wants to explore the relationship between certain groups of objects and certain groups of variables together. Biclustering is a development of clustering analysis which aims to cluster data from two dimensions simultaneously. There are three main analysis methods in this research, namely cluster analysis using K-Means, bicluster analysis (biclustering) using the Cheng and Church (CC) algorithm, and performance evaluation of the results of cluster analysis and biclustering. Clustering analysis and Biclustering are carried out separately at each predetermined threshold so that clustering results are obtained at the optimal threshold for each algorithm. The results of each algorithm can be used to see patterns of people's welfare in Indonesia. Meanwhile, evaluation of the performance of the results of each algorithm, both K-Means and CC, was carried out in the form of a study of the comparability of clustering results in terms of membership, characteristics, distribution of clustering results and the threshold results used, namely Mean Squared Residue (MSR). Cluster analysis using the K-Means algorithm produces optimal clusters with results k=4, and MSR of 0.42251. Meanwhile, biclustering using the CC algorithm produces optimal biclusters at a threshold (δ) = 0.1 with an MSR value of 0.098 and the number of biclusters formed is 4. Even though they both produce 4 clusters, cluster analysis and bicluster analysis have several differences in each cluster. contained in each analysis. Cluster analysis using the K-Means algorithm produces 4 clusters whose members are 17, 7, 9 and 1 respectively. Meanwhile, bicluster analysis using the CC algorithm produces 4 biclusters whose members are 15x12, 9x10, 7x7, 3x10 respectively. Cluster 1, the results of the K-Means method and the results of the CC method, as a whole dominate the islands of Sumatra and Kalimantan. However, in the CC method for the island of Kalimantan there are still provinces in cluster 2, while in the K-Means method all provinces in Kalimantan are in cluster 1 Meanwhile, Cluster 2 contains provinces on the island of Java using both K-means and CC methods. Cluster 3 is spread across Papua, Sulawesi and Sumatra in both methods. Finally, cluster 4 contains the province of Papua for K Means and 3 provinces, namely Papua, DIY and NTT for the CC method. Based on the MSR value of the cluster results with an optimal threshold, the quality of the Algotima CC cluster results tends to be better than the cluster results of the K-Means algorithm.