Kajian Pre-processing Data pada Metode XGBoost dalam Klasifikasi Kejadian Anemia

Nurrahman, Fathu

View/Open

Cover (420.2Kb)

Fulltext (840.4Kb)

Lampiran (378.4Kb)

Date

2024

Author

Nurrahman, Fathu

Wijayanto, Hari

Wigena, Aji Hamim

Metadata

Show full item record

Abstract

Perkembangan teknologi yang pesat saat ini, khususnya dalam bidang data dan analisis memunculkan tantangan baru terkait pengelolaan dan analisis data yang besar (Big Data). Analisis klasifikasi dengan penggunaan teknik machine learning seperti XGBoost, menjadi penting untuk mengatasi kompleksitas dan volume data yang besar. Beberapa tantangan yang dihadapi dalam analisis klasifikasi yakni adanya data yang hilang, jumlah peubah yang banyak, ketidakseimbangan data, dan perlunya seleksi peubah yang tepat. Proses untuk mengatasi masalah-masalah tersebut, maka digunakan teknik-teknik seperti imputasi data menggunakan MissForest, seleksi peubah dengan Boruta, dan pendekatan SMOTE (Synthetic Minority Oversampling Technique) untuk menangani data yang tidak seimbang. Penelitian-penelitian terdahulu telah menunjukkan bahwa penggunaan algoritma XGBoost sering kali memberikan hasil yang baik dalam berbagai aplikasi bidang kesehatan, termasuk klasifikasi anemia dan masalah kesehatan lainnya. Penelitian terdahulu menunjukkan bahwa potensi XGBoost sebagai metode yang efektif dalam prediksi dan diagnosis berdasarkan data kesehatan. Penelitian yang direncanakan untuk menganalisis klasifikasi anemia dan defisiensi besi pada wanita di Indonesia menggunakan algoritma XGBoost, MissForest, Boruta dan SMOTE diharapkan dapat memberikan kontribusi dalam meningkatkan akurasi diagnosa dan pemahaman mengenai faktor-faktor yang mempengaruhi masalah kesehatan tersebut. Data yang digunakan dalam penelitian ini adalah Data Riset Kesehatan Dasar (RISKESDAS) dan data biomedis pada tahun 2013 dengan peubah prediktor meliputi peubah wilayah, daerah, status, umur, WUS (Wanita Usia Subur), ISPA, diare, pneumonia, malaria, TB paru, hepatitis, kanker, kencing manis, riwayat kehamilan, jumlah kehamilan, usia kehamilan, berat badan, tinggi badan, status gizi, status TBI dan status CRP. Peubah respon yang digunakan adalah klasifikasi kadar hemoglobin dan ferittin dengan respon yang bersifat multikelas yaitu kejadian "Anemia", “Defisiensi Besi (Iron Deficiency/ID)”, “Anemia Defisiensi Besi (Iron Deficiency Anemia/IDA)” dan kejadian "Normal". Pemodelan klasifikasi menggunakan model metode XGBoost yang diterapkan pada empat perlakuan penanganan pre-processing data yakni (i) menggunakan MissForest, Boruta dan SMOTE (lengkap); (ii) hanya menggunakan Boruta; (iii) hanya menggunakan SMOTE dan (iv) tidak dilakukan penanganan pre-processing data dengan maksud untuk mengetahui pengaruh terhadap setiap model. Hasil penelitian yang dilakukan menunjukkan bahwa model ensemble learning menggunakan algoritma XGBoost dengan penanganan pre-processing lengkap menghasilkan ukuran kinerja yang terbaik bila dibandingkan dengan perlakuan metode penanganan lainnya berdasarkan rata-rata ukuran kebaikan dari 100 kali perulangan. Model XGBoost dengan penanganan MissForest, Boruta, dan SMOTE menghasilkan nilai sensitivitas 0,384 (Anemia), 0,4736 (ID), 0,5425 (IDA) dan 0,8834 (Normal); spesifisitas 0,9679 (Anemia), 0,9239 (ID), 0,9873 (IDA) dan 0,5442 (Normal); Akurasi 0,7371 dan AUC 0,8147. Perlakuan dengan penanganan SMOTE efektif meningkatkan nilai sensitivitas pada ketiga model. Hasil dari penanganan Boruta menunjukkan bahwa efisiensi waktu program yang cukup cepat dibandingkan tanpa penanganan yakni 39,15 menit atau lebih cepat 7,36 menit lebih cepat. Berdasarkan analisis peubah penting setelah didapatkan model terbaik dapat disimpulkan bahwa peubah prediktor yang berpengaruh pada pembentukan model terbaik adalah berat badan, umur, tinggi badan, jumlah kehamilan, usia kehamilan, status TBI (positif), status (menikah), status CRP (tidak infeksi), status gizi (tidak normal), WUS (tidak hamil) dan riwayat kehamilan (ya).

The rapid development of technology today, particularly in the field of data and analytics, has introduced new challenges related to managing and analyzing large datasets (big data). In the context of classification analysis, the use of machine learning techniques such as XGBoost has become crucial to address the complexity and volume of big data. Key challenges in classification analysis include incomplete data, high numbers of variables, data imbalance, and the need for precise feature selection. Techniques like data imputation using MissForest, feature selection with Boruta, and resampling approaches like SMOTE are employed to tackle these challenges. Previous studies have demonstrated that the use of the XGBoost algorithm often yields favorable results in various healthcare applications, including the classification of anemia and other health issues. This highlights XGBoost's potential as an effective method for prediction and diagnosis based on healthcare data. A planned study to analyze the classification of anemia and iron deficiency among women in Indonesia using XGBoost, MissForest, Boruta, and SMOTE algorithms is expected to contribute to improving diagnostic accuracy and understanding of factors influencing these health issues. The data utilized in this research includes Basic Health Research (RISKESDAS) data and biomedical data from 2013, with predictor variables encompassing region, area, status, age, WUS (Women of Childbearing Age), respiratory infections, diarrhea, pneumonia, malaria, pulmonary tuberculosis, hepatitis, cancer, diabetes, pregnancy history, number of pregnancies, pregnancy age, weight, height, nutritional status, TBI status, and CRP status. The response variables used are classified hemoglobin and ferritin levels with multi-class responses: "Anemia", "Iron Deficiency (ID)", "Iron Deficiency Anemia (IDA)", and "Normal". Classification modeling using ensemble learning XGBoost applied to four data preprocessing treatments (i) using MissForest, Boruta, and SMOTE (complete); (ii) using only Boruta; (iii) using only

URI

http://repository.ipb.ac.id/handle/123456789/156418

Collections

MT - Mathematics and Natural Science [4181]