Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/158524
Title: Analisis Perbandingan Metode Penggerombolan CLARA dan Fuzzy C-Means pada Data yang Mengandung Pencilan
Other Titles: 
Authors: Indahwati
Afendi, Farit Mochamad
Panjaitan, Intan Juliana
Issue Date: 2024
Publisher: IPB University
Abstract: Analisis gerombol adalah suatu metode statistika yang mengidentifikasi gerombol objek berdasarkan karakteristik serupa. Masalah yang sering terjadi dalam analisis gerombol adalah keberadaan data yang mengandung pencilan. Istilah pencilan mengacu pada titik data yang menyimpang secara signifikan dari perilaku umum dataset. Keberadaan pencilan dapat mengakibatkan output yang tidak sesuai dengan gambaran yang sebenarnya, sehingga gerombol yang dihasilkan tidak merepresentasikan objek dengan tepat. Penanganan kendala yang paling mudah adalah dengan membuang data pencilan tersebut, tetapi hal itu bukanlah solusi terbaik. Penanganan lain diperlukan untuk mencari metode alternatif dalam mengatasi keberadaan pencilan tanpa harus membuangnya. Masalah lain yang dapat muncul dalam analisis gerombol adalah besarnya jumlah amatan, sehingga diperlukan metode analisis yang efisien dalam penggerombolan. Metode Clustering Large Applications (CLARA) dan Fuzzy C-Means (FCM) adalah metode yang kekar terhadap pencilan dan mampu menganalisis dataset besar. Metode FCM menggunakan nilai pembobot (w) yang optimal untuk mencapai kekar terhadap pencilan. Metode CLARA memiliki sifat kekar dikarenakan menggunakan medoid sebagai pusat gerombol dan penggunaan jarak Manhattan dalam perhitungan jarak antara objek dan pusat gerombol. Penelitian ini akan melihat bagaimana kinerja analisis metode CLARA dan FCM dalam menggerombolkan data dalam jumlah besar dan data yang menggandung pencilan. Metode tersebut akan dievaluasi menggunakan beberapa kriteria evaluasi kebaikan yaitu berdasarkan rasio simpangan baku dalam gerombol dan antar gerombol. Semakin kecil nilai rasionya, semakin baik suatu metode dalam melakukan pengelompokan. Selain rasio keragaman, akan dilihat pula akurasi penggerombolan metode terhadap gerombol awal yang keanggotaan gerombolnya sudah ditentukan. Hal ini berguna untuk melihat apakah rasio terkecil yang diperoleh juga memberikan keakuratan terbesar. Kajian perbandingan metode-metode tersebut akan dilakukan melalui proses simulasi dan penerapannya terhadap data aktual. Proses simulasi dilakukan pada berbagai skenario seperti jumlah amatan (n), persentase pencilan (d), jarak antar pusat gerombol dan kondisi tumpang tindih antar gerombol. Data aktual yang digunakan adalah data Potensi Desa (PODES) tahun 2021 Provinsi Bengkulu, yang terdiri dari 1514 desa/kelurahan. Hasil penelitian menunjukkan bahwa metode FCM mengungguli metode CLARA dalam penggerombolan jumlah amatan yang besar dan mengandung pencilan. Metode FCM menunjukkan akurasi yang lebih tinggi di setiap skenario yang diuji, dengan nilai rasio simpangan baku yang lebih kecil. Metode FCM juga menunjukkan kestabilan yang lebih besar dalam menangani skenario jumlah amatan, jarak antara pusat gerombol, kondisi tumpang tindih antar gerombol, dan persentase pencilan. Hasil analisis data PODES 2021 menunjukkan jumlah gerombol optimal yang terbentuk yaitu tiga gerombol, dengan karakteristik yang berbeda untuk masing-masing gerombol.
Cluster analysis is a statistical method used to identify groups of objects based on similar characteristics. A common challenge in cluster analysis is the presence of outliers data points that significantly deviate from the general pattern of the dataset. Outliers can lead to misleading results, producing clusters that do not accurately represent the underlying data. While the simplest way to address outliers is to remove them, this approach is not always ideal. Alternative methods are required to handle outliers without discarding them. Another issue in cluster analysis is managing large datasets, which necessitates efficient clustering techniques. The Clustering Large Applications (CLARA) and Fuzzy C-Means (FCM) methods are robust against outliers and effective in analyzing large datasets. The FCM method achieves robustness against outliers by using optimal weighting values (w). The CLARA method is resilient due to its use of medoids as cluster centers and the Manhattan distance for calculating the distance between objects and cluster centers. This study examines the performance of the CLARA and FCM methods in clustering large datasets containing outliers. These methods will be evaluated using several goodness-of-fit criteria, including the standard deviation ratio within and between clusters. A smaller ratio indicates better clustering performance. Additionally, the accuracy of each method’s clustering will be assessed by comparing it to the initial clusters, where membership is already determined. This comparison will help determine whether the method with the smallest ratio also provides the highest accuracy. A comparative study of these methods will be conducted through simulations and applications to actual data. The simulations will consider various scenarios, such as the number of observations (n), the percentage of outliers (d), the distance between cluster centers, and the degree of overlap between clusters. The actual data used will be the 2021 Potensi Desa (PODES) from Bengkulu Province, consisting of 1,514 villages and urban villages. The results indicate that the FCM method outperforms the CLARA method in clustering large datasets with outliers. The FCM method demonstrates higher accuracy in every tested scenario, with smaller standard deviation ratios. Additionally, the FCM method shows greater stability in scenarios involving the number of observations, the distance between cluster centers, cluster overlap, and the percentage of outliers. The analysis of the 2021 PODES data reveals that the optimal number of clusters is three, each with distinct characteristics.
URI: http://repository.ipb.ac.id/handle/123456789/158524
Appears in Collections:MT - Mathematics and Natural Science

Files in This Item:
File Description SizeFormat 
cover_G1501222059_bdd48e647f414c9297f3f3f7d2ca7f82.pdfCover2.89 MBAdobe PDFView/Open
fulltext_G1501222059_47fb7532487d4d9c9fa346b4680666ec.pdf
  Restricted Access
Fulltext3.01 MBAdobe PDFView/Open
lampiran_G1501222059_579d3745c96e4c229c3203048bd567e1.pdf
  Restricted Access
Lampiran7.34 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.