Perbandingan Performa Imputasi Data Hilang Melalui Metode  MissForest dan MICE Pada Model XGBoost Untuk Data Kategorik

Nurhidayah

View/Open

Cover (635.5Kb)

Fulltext (2.815Mb)

Lampiran (575.5Kb)

Date

2026

Author

Nurhidayah

Sadik, Kusman

Wigena, Aji Hamim

Metadata

Show full item record

Abstract

Permasalahan data hilang sering terjadi dalam analisis data, baik pada data numerik maupun data kategorik. Data hilang dapat muncul karena berbagai faktor seperti non respon, kesalahan pencatatan, maupun ketidaksesuaian sistem input. Secara statistik diklasifikasikan ke dalam mekanisme missing completely at random (MCAR), missing at random (MAR), dan missing not at random (MNAR). Pada data numerik, data hilang relatif lebih mudah dipulihkan. Namun, pada data kategorik, penanganan data hilang jauh lebih menantang karena setiap kategori merupakan kelas diskrit tanpa hubungan numerik, sehingga dapat mengubah proporsi antar level dan menimbulkan bias klasifikasi. Berbagai model klasifikasi tidak dapat dianalisis apabila terdapat data hilang, tetapi XGBoost memiliki fitur bawaan untuk menangani data hilang melalui pendekatan missing incorporated in attribute (MIA). Namun, mekanisme ini tidak memperbaiki data hilang secara langsung dan cenderung kurang optimal pada data kategorik. Oleh karena itu, diperlukan metode imputasi yang mampu menangani data hilang secara akurat. Terdapat dua pendekatan yaitu menghapus data hilang, tetapi ini dapat mengurangi ukuran data dan berpotensi menimbulkan bias. Sehingga pendekatan imputasi data hilang sebaiknya digunakan. Saat ini, imputasi berbasis machine learning semakin banyak digunakan karena mampu menangkap pola hubungan yang kompleks antar peubah. Dalam penelitian ini, digunakan MissForest dan multiple imputation chained equations (MICE) dengan varian random forest. MissForest merupakan algoritma imputasi nonparametrik berbasis random forest yang bekerja secara iteratif untuk memperkirakan data hilang dengan memanfaatkan struktur pohon keputusan dan kemampuan ensemble learning. Sementara itu, MICE melakukan imputasi berulang pada setiap peubah yang mengandung data hilang menggunakan random forest sebagai model prediktor. Kedua metode ini sangat efektif untuk data kategorik karena mampu mempertahankan hubungan nonlinear antar peubah dan meminimalkan distorsi distribusi kategori, sehingga hasil imputasi lebih stabil dan mampu meningkatkan performa klasifikasi. Berdasarkan permasalahan ini, penelitian ini bertujuan untuk (1) mengkaji karakteristik data hilang dan pengaruhnya terhadap metode imputasi MissForest dan MICE pada data simulasi, serta (2) membandingkan performa kedua metode imputasi tersebut dalam model XGBoost, baik pada data simulasi maupun data empiris terkait kejadian stunting di Provinsi Jawa Barat. Pada data simulasi, penelitian ini menggunakan rancangan acak lengkap faktorial dengan tiga faktor (metode penanganan data hilang, proporsi data hilang, dan kombinasi peubah yang mengalami data hilang). Data simulasi dibentuk dari lima peubah kategorik dan satu peubah respon biner yang dihasilkan dari model regresi logistik, dengan mekanisme data hilang yang mengikuti pola MCAR dan MAR , sedangkan peubah prediktor terdiri dari lima peubah dibangkitkan dengan sebaran multinomial. Evaluasi kinerja model dilakukan menggunakan metrik akurasi, sensitivitas, dan spesifisitas, yang dihitung berdasarkan hasil klasifikasi model XGBoost pada 30 kali ulangan. Pada data simulasi, metode imputasi MissForest memberikan performa terbaik dengan akurasi dan spesifisitas yang tinggi serta sensitivitas yang stabil di seluruh skenario. MissForest terbukti lebih adaptif terhadap mekanisme MCAR maupun MAR, sedangkan MICE dengan varian random forest hanya stabil pada MCAR dan cenderung menurun performanya pada MAR. Sebaliknya, tanpa penanganan data hilang performa XGBoost menurun tajam pada semua metrik, terutama pada proporsi data hilang 75%, sehingga meskipun XGBoost memiliki mekanisme bawaan untuk menangani nilai hilang, proses imputasi tetap diperlukan untuk menjaga struktur informasi antar level kategori. Temuan pada data simulasi ini menegaskan bahwa kualitas metode imputasi sangat menentukan stabilitas dan meningkatkan performa model klasifikasi pada data kategorik. Sejalan dengan hasil simulasi tersebut, pada data empiris terkait kejadian stunting pada balita di Jawa Barat, performa XGBoost, tanpa penanganan data hilang juga menunjukkan ketidakseimbangan yang ekstrem, sehingga untuk menangani data tak seimbang digunakan random oversampling. Hasil performa evaluasi menunjukkan bahwa balanced accuracy sebesar 50%, yang menandakan bahwa model gagal membedakan antara balita stunting dan tidak stunting secara proporsional. Hal ini juga tampak dari sensitivitas yang sangat tinggi (100%), di mana model mampu mengenali seluruh kasus stunting, namun spesifisitas bernilai 0%, yang berarti model sepenuhnya gagal mengidentifikasi balita tidak stunting. Kondisi tersebut menggambarkan bahwa model XGBoost tanpa penanganan data hilang, cenderung menggolongkan sebagian besar balita stunting, sehingga tidak mencerminkan kejadian stunting sebenarnya. Setelah dilakukan proses imputasi, performa XGBoost meningkat secara signifikan. Metode MissForest menghasilkan balanced accuracy tertinggi yaitu 71,6%, dengan sensitivitas 75,25% dan spesifisitas 67,96%, yang menunjukkan kemampuan model dalam mengenali kedua kelas lebih seimbang. Sementara itu, MICE juga meningkatkan performa model dengan balanced accuracy 56,86%, sensitivitas 60,58%, dan spesifisitas 53,13%, meskipun hasilnya masih belum seoptimal MissForest, peningkatan performa setelah imputasi ini menunjukkan bahwa pengisian data hilang membantu model mempelajari pola karakteristik balita stunting dan tidak stunting secara lebih akurat. Temuan pada kajian empiris ini sekaligus mengonfirmasi hasil pada data simulasi, bahwa MissForest merupakan metode imputasi paling efektif dalam meningkatkan performa model XGBoost pada data kategorik yang terdapat data hilang yang memiliki proporsi yang besar.

Missing data problems frequently arise in data analysis, both in numerical and categorical variables. Missing values may occur due to various factors such as non-response, recording errors, or system input inconsistencies, and are statistically classified into the mechanisms of missing completely at random (MCAR), missing at random (MAR), and missing not at random (MNAR). In numerical variables, missing data are relatively easier to recover. However, in categorical data, handling missing values becomes more challenging because each category represents a discrete class without numerical relationships, thus potentially altering the proportion among levels and introducing classification bias. Many classification models cannot be analyzed when missing values are present, but XGBoost has a built in feature to handle missing data through the missing incorporated in attribute (MIA) mechanism. Nevertheless, this mechanism does not explicitly restore missing values and tends to be less optimal for categorical variables. Therefore, an appropriate missing data handling method is required. Two general approaches are available: deleting incomplete data, which may reduce sample size and introduce bias, and imputing missing values, which is generally preferable. Recently, machine learning based imputation methods have become increasingly popular due to their ability to capture complex relationships among variables. In this study, MissForest and Multiple Imputation by Chained Equations (MICE) with a Random Forest variant were used. MissForest is a nonparametric imputation algorithm based on Random Forest that iteratively estimates missing values by utilizing decision tree structures and ensemble learning. Meanwhile, MICE performs repeated imputations on each variable with missing values using Random Forest as its predictive model. Both methods are effective for categorical data because they preserve nonlinear relationships among variables and minimize distortion in category distribution, resulting in more stable imputations and improved classification performance. Based on these issues, this study aims to: (1) analyze the characteristics of missing data and evaluate their impact on the imputation performance of MissForest and MICE in simulated data, and (2) compare the performance of these two imputation methods within the XGBoost model using both simulated data and empirical data related to stunting in West Java Province. This study uses simulated data and empirical data on stunting cases in West Java. The simulated data were generated using a completely randomized factorial design involving three factors: imputation method, proportion of missing data, and combinations of variables containing missing values. The simulated dataset consists of five categorical predictors and one binary response generated from a logistic regression model, with missing data introduced under MCAR and MAR mechanisms. The predictor variables were generated using a multinomial distribution. Model performance was evaluated using accuracy, sensitivity, and specificity, calculated from XGBoost classification results over 30 replications. In the simulated data, MissForest produced the best performance, achieving high accuracy and specificity with stable sensitivity across all scenarios. MissForest proved more adaptive to both MCAR and MAR mechanisms, whereas MICE with Random Forest was stable only under MCAR and showed decreased performance under MAR. Conversely, without missing data handling, XGBoost performance declined sharply across all metrics, especially at 75% missingness. This indicates that although XGBoost has a built-in mechanism to handle missing values, imputation is still necessary to maintain the structural information across categorical levels. These simulation findings highlight that the quality of the imputation method is crucial for ensuring stable predictions in categorical classification tasks. Consistent with the simulation results, the empirical data on stunting among children in West Java also showed severe imbalance when XGBoost was applied without missing data handling, so random oversampling is used to handle imbalanced data, the evaluation performance results that the balanced accuracy was only 50%, indicating that the model failed to proportionally distinguish between stunted and non-stunted children. This is reflected in the extremely high sensitivity (100%), where the model correctly identified all stunted cases, but specificity was 0%, meaning the model completely failed to identify non-stunted children. This condition suggests that the model without imputation tended to classify most children as stunted, thus failing to represent the actual stunting condition. After performing imputation, XGBoost performance improved significantly. MissForest yielded the highest balanced accuracy of 71.6%, with a sensitivity of 75.25% and specificity of 67.96%, indicating that the model was better able to recognize both classes in a more balanced manner. MICE also improved model performance with a balanced accuracy of 56.86%, sensitivity of 60.58%, and specificity of 53.13%, although its results were still lower than those of MissForest. These improvements demonstrate that imputing missing data helps the model learn the characteristics of stunted and non stunted children more accurately and consistently. The empirical findings reinforce the simulation results, confirming that MissForest is the most effective imputation method for improving the performance of the XGBoost model on categorical data with a high proportion of missing data.

URI

http://repository.ipb.ac.id/handle/123456789/172322

Collections

MT - School of Data Science, Mathematic and Informatics [97]