Show simple item record

dc.contributor.advisorKurnia, Anang
dc.contributor.advisorFitrianto, Anwar
dc.contributor.advisorErnawati, Fitrah
dc.contributor.authorPraptiwi, Ditia Yosmita
dc.date.accessioned2024-08-05T13:35:03Z
dc.date.available2024-08-05T13:35:03Z
dc.date.issued2024
dc.identifier.urihttp://repository.ipb.ac.id/handle/123456789/155726
dc.description.abstractAnemia masih menjadi permasalahan kesehatan masyarakat di Indonesia, terutama pada kelompok anak usia 5-12 tahun. Prevalensi anemia pada kelompok tersebut terus mengalami peningkatan. Berdasarkan hasil Riset Kesehatan Dasar (Riskesdas) pada tahun 2007 prevalensi anemia kelompok usia 5-12 tahun sebesar 9,4%, tahun 2013 meningkat menjadi 26,4%, dan tahun 2018 mencapai 26,8%. Oleh karena itu, deteksi dini dan pengendalian faktor risiko terjadinya anemia sangat penting dilakukan. Anemia dapat disebabkan banyak faktor yang berbeda, baik secara langsung maupun tidak langsung. Model machine learning memiliki kemampuan untuk menganalisis hubungan nonlinear dan mengidentifikasi pola yang sulit dikenali. Salah satu model machine learning adalah pemodelan klasifikasi. Prevalensi anak yang mengalami anemia dan tidak mengalami anemia pada data survey Riset Kesehatan Dasar (Riskesdas) tidak seimbang. Akibatnya, kinerja model machine learning menjadi tidak optimal karena kelas dengan jumlah contoh yang lebih banyak (kelas mayoritas) memberikan pengaruh yang sangat besar dalam klasifikasi. Pada penelitian ini, kelas minoritas merujuk pada kejadian anemia, sedangkan kelas mayoritas merujuk pada kejadian normal. Untuk menghasilkan prediksi yang lebih akurat terhadap kelas minoritas, maka dilakukan penanganan ketidakseimbangan kelas pada model machine learning. Penelitian ini menangani masalah kelas tidak seimbang dengan pendekatan oversampling menggunakan Random Oversampling (ROS), SMOTE, dan G-SMOTE. Pendekatan undersampling menggunakan Random Undersampling (RUS) dan Instance Hardnes Threshold (IHT). Selain itu, pendekatan kombinasi oversampling dan undersampling menggunakan SMOTE-ENN. Model ensemble berbasis bagging dan boosting dapat menghasilkan tingkat ukuran kinerja yang lebih tinggi dibandingkan dengan model tunggal. Akan tetapi, model ensemble lebih sulit untuk diinterpretasikan. Pendekatan menggunakan metode SHAP dapat menginterpretasikan hasil dari prediksi model ensemble. Sehingga tujuan dari penelitian ini adalah membandingkan model ensemble berbasis bagging dan boosting dengan penanganan kelas tidak seimbang dalam pemodelan klasifikasi anemia pada anak kelompok usia 5-12 tahun. Model ensemble berbasis bagging menggunakan algoritma Random Forest. Boosting menggunakan algoritma CatBoost dan LightGBM. Serta, mengidentifikasi peubah penting untuk mendeteksi faktor risiko terjadinya anemia pada anak kelompok usia 5-12 tahun menggunakan metode SHAP. Data yang digunakan dalam penelitian ini adalah Data Riset Kesehatan Dasar (Riskesdas) tahun 2018 dan data biomedis tahun 2018 dengan peubah prediktor meliputi faktor sosiodemografi, faktor riwayat penyakit infeksi, faktor pola makan, faktor status gizi, faktor sanitasi lingkungan, dan faktor asupan mikronutrien. Peubah respon yang digunakan adalah klasifikasi kadar hemoglogbin dengan respon yang bersifat biner yaitu kejadian anemia dan normal. Pemodelan klasifikasi menggunakan tiga model ensemble diterapkan pada tujuh perlakuan yaitu tanpa penanganan, penanganan kelas tidak seimbang menggunakan metode ROS, SMOTE, G-SMOTE, SMOTE-ENN, RUS, dan IHT untuk mengetahui pengaruh perlakuan kelas tidak seimbang pada masing-masing model ensemble. Model terbaik dilakukan analisis lebih lanjut dengan pendekatan metode SHAP menggunakan plot SHAP Summary dan plot SHAP Feature Dependence. Hasil penelitian yang dilakukan menunjukkan bahwa model ensemble menggunakan algoritma CatBoost dengan penanganan kelas tidak seimbang menggunakan perlakuan penanganan G-SMOTE menghasilkan ukuran kinerja yang terbaik bila dibandingkan dengan perlakuan metode penanganan lainnya berdasarkan rata-rata ukuran kebaikan dari 100 kali perulangan validasi. Model CatBoost G-SMOTE menghasilkan nilai sensitivitas 0,7104, spesifisitas 0,7043, G-Mean 0,7067, dan AUC 0,7844. Perlakuan dengan penanganan kelas tidak seimbang menggunakan metode G-SMOTE efektif dalam meningkatkan nilai sensitivitas pada ketiga model ensemble. Sedangkan metode SMOTE-ENN efektif dalam meningkatkan nilai G-Mean pada algoritma Random Forest dan LightGBM. Berdasarkan analisis peubah penting menggunakan metode SHAP dapat disimpulkan bahwa prediktor yang berpengaruh pada pembentukan model terbaik CatBoost G-SMOTE adalah kadar ferritin, kadar vitamin A, konsumsi sayur, riwayat penyakit pneumonia, kadar zink, kadar kalsium, dan pola konsumsi minuman berkarbonasi.
dc.description.sponsorship
dc.language.isoid
dc.publisherIPB Universityid
dc.titleKinerja Model Ensemble Berbasis Bagging dan Boosting dengan Penanganan Kelas Tidak Seimbang untuk Mendeteksi Faktor Risiko Anemiaid
dc.title.alternative
dc.typeTesis
dc.subject.keywordanemiaid
dc.subject.keywordclass imbalancedid
dc.subject.keywordensemble modelid
dc.subject.keywordG-SMOTEid
dc.subject.keywordSHAPid


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record