Show simple item record

dc.contributor.advisorIndahwati
dc.contributor.advisorFitrianto, Anwar
dc.contributor.authorPratiwi, Nafisa Berliana Indah
dc.date.accessioned2024-08-30T06:31:45Z
dc.date.available2024-08-30T06:31:45Z
dc.date.issued2024
dc.identifier.urihttp://repository.ipb.ac.id/handle/123456789/158520
dc.description.abstractAnalisis gerombol merupakan teknik unsupervised learning yang telah banyak digunakan untuk mengelompokkan objek-objek yang mirip. Analisis gerombol menarik perhatian di berbagai bidang ilmiah seperti machine learning, data mining, dan information retrieval. Perhatian ini telah mendorong pengembangan pada berbagai pendekatan algoritme penggerombolan. Teknik penggerombolan yang umum digunakan biasanya berbasis jarak (distance-based) dan bervariasi tergantung pada jenis data yang digunakan (data-based), termasuk data numerik, data kategorik, dan data campuran yang terdiri atas peubah numerik dan kategorik. Salah satu tantangan yang dapat mengurangi kinerja algoritme penggerombolan adalah adanya data hilang dan pencilan tunggal. Dalam studi analisis gerombol dengan kasus data hilang, metode imputasi yang efektif menjadi kunci untuk meningkatkan akurasi hasil penggerombolan. Pengembangan terkini dalam algoritme penggerombolan melibatkan integrasi proses imputasi dengan proses penggerombolan. Oleh karena itu, penelitian ini berfokus pada kajian simulasi dan penerapan algoritme penggerombolan pada peubah campuran dengan data hilang dan pencilan tunggal. Penelitian ini membandingkan tiga algoritme penggerombolan untuk data peubah campuran, algoritme k-prototype, yang merupakan algoritme penggerombolan pertama yang diciptakan untuk data peubah campuran; simple kmedoids, yang merupakan algoritme penggerombolan untuk data campuran yang dikembangkan berbasis medoids, umumnya kekar terhadap pencilan; dan clustering mixed numerical and categorical data with missing values (k-CMM), yang merupakan algoritme penggerombolan pertama untuk data peubah campuran yang mengintegrasikan proses imputasi dengan proses penggerombolan. Proses imputasi data hilang berbasis teknik machine learning dengan pendekatan berbasis pohon (tree-based), baik yang terpisah maupun terintegrasi. Selanjutnya, hasil penggerombolan dari ketiga algoritme tersebut dievaluasi menggunakan indeks validitas berdasarkan kriteria internal (Silhouette) dan kriteria eksternal (Purity, NMI, Homogeneity, Completeness, dan V-measure). Penelitian ini terdiri atas kajian simulasi dan kajian empiris. Kajian simulasi bertujuan untuk memperoleh informasi mengenai performa ketiga algoritme tersebut dengan mempertimbangkan beberapa kondisi yang dapat memengaruhi gerombol hasil. Kondisi yang diamati dalam penelitian ini meliputi jumlah gerombol (k=3), jumlah observasi (N=100, 250, 500), banyak peubah campuran (p=32), proporsi pencilan (Out = 0.00, 0.10, 0.20), proporsi data hilang (Emp = 0.0004, 0.0008, 0.0012), dan proporsi tumpang tindih gerombol (? = 0.001, 0.10, 0.20). Setiap data yang dibangkitkan direplikasi sebanyak 30 kali, dan dari seluruh kombinasi kondisi tersebut diperoleh 81 skenario keseluruhan yang diamati. Kajian empiris dilakukan dengan menerapkan ketiga algoritme tersebut pada data potensi desa Kabupaten Bogor tahun 2021, dengan acuan lima dimensi yang mewakili Indeks Pembangunan Desa (IPD). Lima dimensi tersebut meliputi (i) pelayanan dasar, (ii) kondisi infrastruktur, (iii) aksesibilitas / transportasi, (iv) pelayanan umum, dan (v) penyelenggaraan pemerintahan. Dalam penelitian ini, digunakan 32 peubah campuran yang mewakili seluruh dimensi. Hasil penggerombolan kemudian dievaluasi menggunakan kriteria internal, sedangkan untuk evaluasi berdasarkan kriteria eksternal dibentuk dua skenario pembentukan ground truth: (i) menggunakan publikasi status Indeks Desa Membangun (IDM) untuk desa di Kabupaten Bogor tahun 2021, dan (ii) membangun ground truth berdasarkan algoritme penggerombolan agglomerative nesting (AGNES) yang dievaluasi menggunakan koefisien aglomeratif. Hasil kajian simulasi menunjukkan bahwa algoritme k-prototype dengan proses imputasi terpisah memiliki performa paling unggul dibandingkan dengan kedua algoritme lainnya, termasuk k-CMM yang merupakan algoritme penggerombolan dengan proses imputasi terintegrasi. Algoritme k-prototype memiliki nilai indeks validitas tertinggi berdasarkan kriteria internal dan seluruh kriteria eksternal dibandingkan dengan simple k-medoids dan k-CMM. Algoritme k-prototype memberikan hasil terbaik terutama pada data yang tidak mengandung pencilan, sementara simple k-medoids menunjukkan kemampuan yang lebih baik dalam menggerombolkan data pada skenario dengan beberapa proporsi pencilan. Sebaliknya, k-CMM cenderung stabil untuk semua kondisi dengan nilai indeks validitas kedua kriteria yang relatif rendah. Proporsi data hilang yang dicakup oleh ketiga algoritme bervariasi dan mencakup seluruh jenis proporsi data hilang yang diuji. Untuk memperoleh informasi terkait signifikansi pengaruh masing-masing skenario terhadap indeks validitas berdasarkan kriteria internal dan eksternal, dilakukan pemodelan regresi untuk ketiga algoritme. Hasilnya menunjukkan bahwa pada k-prototype dan simple k-medoids, kondisi seperti jumlah observasi, pencilan, dan tingkat tumpang tindih gerombol berpengaruh signifikan terhadap seluruh indeks validitas, sementara proporsi data hilang tidak memiliki pengaruh signifikan. Berbeda dengan k-CMM, untuk seluruh kondisi skenario, terutama kondisi data hilang, berpengaruh signifikan terhadap performa algoritme k-CMM yang diukur berdasarkan kriteria eksternal dan internal. Hal ini menunjukkan kesesuaian dengan tujuan utama dari pembentukan algoritme k-CMM, yaitu mengintegrasikan proses imputasi dengan proses penggerombolan untuk meningkatkan performa penggerombolan. Penelitian ini juga mengamati interaksi antar skenario untuk ketiga algoritme penggerombolan. Hasil kajian empiris juga sejalan dengan hasil kajian simulasi, yakni algoritme k-prototype dengan proses imputasi terpisah tetap unggul dibandingkan kedua algoritme lainnya dalam menggerombolkan desa di Kabupaten Bogor, berdasarkan dimensi Indeks Pembangunan Desa (IPD) 2021. k-prototype konsisten memberikan nilai indeks validitas tertinggi berdasarkan kriteria eksternal pada kedua skenario ground truth. Algoritme k-prototype berhasil mengidentifikasi tiga gerombol desa yang memiliki karakteristik mirip dengan gerombol yang dihasilkan status IDM 2021 (Mandiri, Maju, Berkembang). Gerombol pertama (50 desa) yang dihasilkan oleh k-prototype setara dengan desa dalam kelompok "Mandiri", sementara gerombol kedua (264 desa) dan ketiga (119 desa) selaras dengan kelompok desa dengan status "Maju" dan "Berkembang". Integrasi data potensi desa yang diterapkan pada k-prototype dan status desa berdasarkan IDM memberikan wawasan penting untuk peningkatan kebijakan dan alokasi sumber daya yang lebih terarah bagi pembangunan desa di Kabupaten Bogor.
dc.description.sponsorship
dc.language.isoid
dc.publisherIPB Universityid
dc.titleAnalisis Gerombol pada Peubah Campuran dengan Data Hilang dan Pencilan Tunggalid
dc.title.alternativeCluster Analysis in Mixed Variables with Missing Values and Univariate Outliers
dc.typeTesis
dc.subject.keywordanalisis gerombolid
dc.subject.keyworddata hilangid
dc.subject.keywordpencilan tunggalid
dc.subject.keywordpeubah campuranid
dc.subject.keywordcluster analysis
dc.subject.keywordmissing data
dc.subject.keywordmixed data
dc.subject.keywordunivariate outlier


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record