Kajian Pre-processing Data pada Metode XGBoost dalam Klasifikasi Kejadian Anemia
Abstract
Perkembangan teknologi yang pesat saat ini, khususnya dalam bidang data dan analisis memunculkan tantangan baru terkait pengelolaan dan analisis data yang besar (Big Data). Analisis klasifikasi dengan penggunaan teknik machine learning seperti XGBoost, menjadi penting untuk mengatasi kompleksitas dan volume data yang besar. Beberapa tantangan yang dihadapi dalam analisis klasifikasi yakni adanya data yang hilang, jumlah peubah yang banyak, ketidakseimbangan data, dan perlunya seleksi peubah yang tepat. Proses untuk mengatasi masalah-masalah tersebut, maka digunakan teknik-teknik seperti imputasi data menggunakan MissForest, seleksi peubah dengan Boruta, dan pendekatan SMOTE (Synthetic Minority Oversampling Technique) untuk menangani data yang tidak seimbang.
Penelitian-penelitian terdahulu telah menunjukkan bahwa penggunaan algoritma XGBoost sering kali memberikan hasil yang baik dalam berbagai aplikasi bidang kesehatan, termasuk klasifikasi anemia dan masalah kesehatan lainnya. Penelitian terdahulu menunjukkan bahwa potensi XGBoost sebagai metode yang efektif dalam prediksi dan diagnosis berdasarkan data kesehatan. Penelitian yang direncanakan untuk menganalisis klasifikasi anemia dan defisiensi besi pada wanita di Indonesia menggunakan algoritma XGBoost, MissForest, Boruta dan SMOTE diharapkan dapat memberikan kontribusi dalam meningkatkan akurasi diagnosa dan pemahaman mengenai faktor-faktor yang mempengaruhi masalah kesehatan tersebut.
Data yang digunakan dalam penelitian ini adalah Data Riset Kesehatan Dasar (RISKESDAS) dan data biomedis pada tahun 2013 dengan peubah prediktor meliputi peubah wilayah, daerah, status, umur, WUS (Wanita Usia Subur), ISPA, diare, pneumonia, malaria, TB paru, hepatitis, kanker, kencing manis, riwayat kehamilan, jumlah kehamilan, usia kehamilan, berat badan, tinggi badan, status gizi, status TBI dan status CRP. Peubah respon yang digunakan adalah klasifikasi kadar hemoglobin dan ferittin dengan respon yang bersifat multikelas yaitu kejadian "Anemia", “Defisiensi Besi (Iron Deficiency/ID)”, “Anemia Defisiensi Besi (Iron Deficiency Anemia/IDA)” dan kejadian "Normal". Pemodelan klasifikasi menggunakan model metode XGBoost yang diterapkan pada empat perlakuan penanganan pre-processing data yakni (i) menggunakan MissForest, Boruta dan SMOTE (lengkap); (ii) hanya menggunakan Boruta; (iii) hanya menggunakan SMOTE dan (iv) tidak dilakukan penanganan pre-processing data dengan maksud untuk mengetahui pengaruh terhadap setiap model.
Hasil penelitian yang dilakukan menunjukkan bahwa model ensemble learning menggunakan algoritma XGBoost dengan penanganan pre-processing lengkap menghasilkan ukuran kinerja yang terbaik bila dibandingkan dengan perlakuan metode penanganan lainnya berdasarkan rata-rata ukuran kebaikan dari 100 kali perulangan. Model XGBoost dengan penanganan MissForest, Boruta, dan SMOTE menghasilkan nilai sensitivitas 0,384 (Anemia), 0,4736 (ID), 0,5425 (IDA) dan 0,8834 (Normal); spesifisitas 0,9679 (Anemia), 0,9239 (ID), 0,9873 (IDA) dan 0,5442 (Normal); Akurasi 0,7371 dan AUC 0,8147. Perlakuan dengan penanganan SMOTE efektif meningkatkan nilai sensitivitas pada ketiga model. Hasil dari penanganan Boruta menunjukkan bahwa efisiensi waktu program yang cukup cepat dibandingkan tanpa penanganan yakni 39,15 menit atau lebih cepat 7,36 menit lebih cepat. Berdasarkan analisis peubah penting setelah didapatkan model terbaik dapat disimpulkan bahwa peubah prediktor yang berpengaruh pada pembentukan model terbaik adalah berat badan, umur, tinggi badan, jumlah kehamilan, usia kehamilan, status TBI (positif), status (menikah), status CRP (tidak infeksi), status gizi (tidak normal), WUS (tidak hamil) dan riwayat kehamilan (ya). The rapid development of technology today, particularly in the field of data
and analytics, has introduced new challenges related to managing and analyzing
large datasets (big data). In the context of classification analysis, the use of machine
learning techniques such as XGBoost has become crucial to address the complexity
and volume of big data. Key challenges in classification analysis include
incomplete data, high numbers of variables, data imbalance, and the need for
precise feature selection. Techniques like data imputation using MissForest, feature
selection with Boruta, and resampling approaches like SMOTE are employed to
tackle these challenges.
Previous studies have demonstrated that the use of the XGBoost algorithm
often yields favorable results in various healthcare applications, including the
classification of anemia and other health issues. This highlights XGBoost's
potential as an effective method for prediction and diagnosis based on healthcare
data. A planned study to analyze the classification of anemia and iron deficiency
among women in Indonesia using XGBoost, MissForest, Boruta, and SMOTE
algorithms is expected to contribute to improving diagnostic accuracy and
understanding of factors influencing these health issues.
The data utilized in this research includes Basic Health Research
(RISKESDAS) data and biomedical data from 2013, with predictor variables
encompassing region, area, status, age, WUS (Women of Childbearing Age),
respiratory infections, diarrhea, pneumonia, malaria, pulmonary tuberculosis,
hepatitis, cancer, diabetes, pregnancy history, number of pregnancies, pregnancy
age, weight, height, nutritional status, TBI status, and CRP status. The response
variables used are classified hemoglobin and ferritin levels with multi-class
responses: "Anemia", "Iron Deficiency (ID)", "Iron Deficiency Anemia (IDA)",
and "Normal". Classification modeling using ensemble learning XGBoost applied
to four data preprocessing treatments (i) using MissForest, Boruta, and SMOTE
(complete); (ii) using only Boruta; (iii) using only
