| dc.contributor.advisor | Sumertajaya, I Made | |
| dc.contributor.advisor | Soleh, Agus Mohamad | |
| dc.contributor.author | Astari, Reka Agustia | |
| dc.date.accessioned | 2025-06-16T07:50:23Z | |
| dc.date.available | 2025-06-16T07:50:23Z | |
| dc.date.issued | 2025 | |
| dc.identifier.uri | http://repository.ipb.ac.id/handle/123456789/162508 | |
| dc.description.abstract | Penelitian ini mengkaji efektivitas metode hybrid sampling dalam menangani ketidakseimbangan data (imbalanced data) pada algoritma ensemble learning, dengan fokus pada klasifikasi status rumah tangga miskin di Provinsi Riau. Data kemiskinan umumnya memiliki distribusi kelas yang tidak seimbang, di mana proporsi rumah tangga miskin jauh lebih kecil dibandingkan rumah tangga tidak miskin. Kondisi ini menyebabkan algoritma pembelajaran cenderung bias terhadap kelas mayoritas, sehingga akurasi dalam mendeteksi kelas minoritas menjadi rendah.
Untuk mengatasi permasalahan tersebut, penelitian ini mengimplementasikan kombinasi teknik Synthetic Minority Over-sampling Technique (SMOTE) dengan Neighbourhood Cleaning Rule (NCL) dan Edited Nearest Neighbour (ENN) pada dua algoritma ensemble learning, yaitu Double Random Forest (DRF) dan Extremely Randomized Trees (ET). Analisis dilakukan dengan menggunakan data simulasi dan data empiris dari Survei Sosial Ekonomi Nasional (SUSENAS) tahun 2023. Data simulasi dirancang dalam 18 skenario berdasarkan kombinasi variasi rasio ketidakseimbangan data (60:40, 80:20, 95:5) dan tingkat korelasi antar peubah (rendah, tinggi, dan campuran). Metode hybrid sampling seperti SMOTE-NCL dan SMOTE-ENN diterapkan untuk menyeimbangkan distribusi kelas, sekaligus meminimalkan risiko overfitting yang sering terjadi pada teknik oversampling murni.
Evaluasi performa model dilakukan menggunakan metrik balanced accuracy, sensitivity, dan G-mean , dengan pengujian berulang sebanyak 100 kali untuk memastikan stabilitas hasil. Proses pemodelan juga dilengkapi dengan hyperparameter tuning dan analisis Shapley Additive Explanations (SHAP) untuk mengidentifikasi peubah-peubah yang berkontribusi besar terhadap prediksi status kemiskinan.
Hasil penelitian menunjukkan bahwa kombinasi algoritma DRF dengan metode SMOTE-NCL secara konsisten menghasilkan performa terbaik dibandingkan metode lain. Pada skenario simulasi dengan ketidakseimbangan ekstrem (95:5) dan korelasi rendah, pendekatan ini mencapai nilai balanced accuracy sebesar 87,56%, sensitivity sebesar 81,85%, dan G-mean sebesar 78,59%. Sebaliknya, algoritma ET tanpa penanganan ketidakseimbangan hanya mencapai balanced accuracy sekitar 50%, yang mencerminkan adanya bias terhadap kelas mayoritas. Pada data empiris, kombinasi DRF dengan SMOTE-NCL juga menunjukkan hasil terbaik dengan rata-rata balanced accuracy sebesar 82,47%, sensitivity sebesar 78,92%, dan G-mean sebesar 75,30%. Berdasarkan analisis SHAP, peubah yang paling berkontribusi terhadap prediksi status kemiskinan adalah luas lantai, kode wilayah, jumlah anggota rumah tangga, kepemilikan kulkas, rumah, dan tanah, jenis lantai, jenis dinding, fasilitas sanitasi, serta tingkat pendidikan kepala rumah tangga.
Dengan demikian, penelitian ini menyimpulkan bahwa metode hybrid sampling, khususnya SMOTE-NCL, dapat secara signifikan meningkatkan akurasi dan ketepatan klasifikasi pada data tidak seimbang. Teknik ini juga mampu merepresentasikan kelas minoritas dengan lebih baik tanpa mengorbankan generalisasi model. Oleh karena itu, pendekatan ini direkomendasikan untuk diterapkan pada kasus serupa di bidang lain yang menghadapi tantangan ketidakseimbangan data, serta sebagai dukungan dalam pengambilan keputusan berbasis data untuk program pengentasan kemiskinan. Penelitian selanjutnya disarankan untuk mengeksplorasi teknik hybrid sampling lainnya dan menguji algoritma pembelajaran mesin yang lebih kompleks guna meningkatkan performa prediktif secara menyeluruh. | |
| dc.description.abstract | This study investigates the effectiveness of hybrid sampling methods in addressing class imbalance in ensemble learning algorithms, with a specific focus on classifying poor households in Riau Province. Poverty-related data typically exhibit imbalanced class distributions, where the proportion of poor households is significantly lower than that of non-poor households. This imbalance poses a major challenge in classification modeling, as learning algorithms tend to be biased toward the majority class, resulting in low accuracy in detecting the minority class.
To mitigate this issue, the study applies a combination of the Synthetic Minority Over-sampling Technique (SMOTE) with Neighbourhood Cleaning Rule (NCL) and Edited Nearest Neighbour (ENN) on two ensemble learning algorithms: Double Random Forest (DRF) and Extremely Randomized Trees (ET). The analysis utilizes both simulated data and empirical data derived from the 2023 National Socioeconomic Survey (SUSENAS). The simulated dataset was designed across 18 different scenarios, considering variations in imbalance ratios (60:40, 80:20, 95:5) and correlation levels among variables (low, high, and mixed). Hybrid sampling methods such as SMOTE-NCL and SMOTE-ENN were used to balance the class distribution while minimizing the risk of overfitting commonly associated with pure oversampling techniques.
Model performance was evaluated using balanced accuracy, sensitivity, and G-mean metrics, with 100 iterations of repeated testing to ensure stability of results. The modeling process included hyperparameter tuning and was complemented by Shapley Additive Explanations (SHAP) analysis to identify the most influential predictors in determining household poverty status.
The findings show that the DRF algorithm combined with SMOTE-NCL consistently outperformed other tested methods. Under the simulated scenario with extreme imbalance (95:5) and low correlation, this method achieved a balanced accuracy of 87.56%, sensitivity of 81.85%, and G-mean of 78.59%. In contrast, the ET algorithm without imbalance handling performed suboptimally, with a balanced accuracy of approximately 50%, indicating a strong bias toward the majority class. On empirical data, the DRF with SMOTE-NCL also delivered the best results, achieving average balanced accuracy of 82.47%, sensitivity of 78.92%, and G-mean of 75.30%.
SHAP analysis revealed that the most influential variables in predicting poverty status included floor area, region code, household size, ownership of a refrigerator, house and land ownership, type of flooring and wall materials, sanitation access, and the highest education level of the household head.
In conclusion, this study demonstrates that hybrid sampling techniques particularly SMOTE-NCL can significantly enhance the performance of classification models in handling imbalanced data. This method not only improves predictive accuracy but also ensures fairer representation of minority classes. Therefore, its application is recommended in similar studies across other domains facing class imbalance challenges. Furthermore, integrating SHAP analysis is suggested to support data-driven decision-making, particularly in poverty alleviation programs. Future research is encouraged to explore alternative hybrid sampling methods and more complex machine learning algorithms to further enhance predictive accuracy and model interpretability. | |
| dc.description.sponsorship | | |
| dc.language.iso | id | |
| dc.publisher | IPB University | id |
| dc.title | Kajian Hybrid Sampling dalam Penanganan Imbalance Data pada Algoritma Ensemble Learning (Kasus Rumah Tangga Miskin di Provinsi Riau) | id |
| dc.title.alternative | | |
| dc.type | Tesis | |
| dc.subject.keyword | double random forest | id |
| dc.subject.keyword | extra trees | id |
| dc.subject.keyword | hybrid sampling | id |
| dc.subject.keyword | imbalance data | id |
| dc.subject.keyword | rumah tangga miskin | id |