Perbandingan Performa Imputasi Data Hilang Melalui Metode MissForest dan MICE Pada Model XGBoost Untuk Data Kategorik
Abstract
Permasalahan data hilang sering terjadi dalam analisis data, baik pada data
numerik maupun data kategorik. Data hilang dapat muncul karena berbagai faktor
seperti non respon, kesalahan pencatatan, maupun ketidaksesuaian sistem input.
Secara statistik diklasifikasikan ke dalam mekanisme missing completely at random
(MCAR), missing at random (MAR), dan missing not at random (MNAR). Pada
data numerik, data hilang relatif lebih mudah dipulihkan. Namun, pada data
kategorik, penanganan data hilang jauh lebih menantang karena setiap kategori
merupakan kelas diskrit tanpa hubungan numerik, sehingga dapat mengubah
proporsi antar level dan menimbulkan bias klasifikasi.
Berbagai model klasifikasi tidak dapat dianalisis apabila terdapat data hilang,
tetapi XGBoost memiliki fitur bawaan untuk menangani data hilang melalui
pendekatan missing incorporated in attribute (MIA). Namun, mekanisme ini tidak
memperbaiki data hilang secara langsung dan cenderung kurang optimal pada data
kategorik. Oleh karena itu, diperlukan metode imputasi yang mampu menangani
data hilang secara akurat. Terdapat dua pendekatan yaitu menghapus data hilang,
tetapi ini dapat mengurangi ukuran data dan berpotensi menimbulkan bias.
Sehingga pendekatan imputasi data hilang sebaiknya digunakan.
Saat ini, imputasi berbasis machine learning semakin banyak digunakan
karena mampu menangkap pola hubungan yang kompleks antar peubah. Dalam
penelitian ini, digunakan MissForest dan multiple imputation chained equations
(MICE) dengan varian random forest. MissForest merupakan algoritma imputasi
nonparametrik berbasis random forest yang bekerja secara iteratif untuk
memperkirakan data hilang dengan memanfaatkan struktur pohon keputusan dan
kemampuan ensemble learning. Sementara itu, MICE melakukan imputasi
berulang pada setiap peubah yang mengandung data hilang menggunakan random
forest sebagai model prediktor. Kedua metode ini sangat efektif untuk data
kategorik karena mampu mempertahankan hubungan nonlinear antar peubah dan
meminimalkan distorsi distribusi kategori, sehingga hasil imputasi lebih stabil dan
mampu meningkatkan performa klasifikasi.
Berdasarkan permasalahan ini, penelitian ini bertujuan untuk (1) mengkaji
karakteristik data hilang dan pengaruhnya terhadap metode imputasi MissForest
dan MICE pada data simulasi, serta (2) membandingkan performa kedua metode
imputasi tersebut dalam model XGBoost, baik pada data simulasi maupun data
empiris terkait kejadian stunting di Provinsi Jawa Barat.
Pada data simulasi, penelitian ini menggunakan rancangan acak lengkap
faktorial dengan tiga faktor (metode penanganan data hilang, proporsi data hilang,
dan kombinasi peubah yang mengalami data hilang). Data simulasi dibentuk dari
lima peubah kategorik dan satu peubah respon biner yang dihasilkan dari model
regresi logistik, dengan mekanisme data hilang yang mengikuti pola MCAR dan
MAR , sedangkan peubah prediktor terdiri dari lima peubah dibangkitkan dengan
sebaran multinomial. Evaluasi kinerja model dilakukan menggunakan metrik
akurasi, sensitivitas, dan spesifisitas, yang dihitung berdasarkan hasil klasifikasi
model XGBoost pada 30 kali ulangan.
Pada data simulasi, metode imputasi MissForest memberikan performa
terbaik dengan akurasi dan spesifisitas yang tinggi serta sensitivitas yang stabil di
seluruh skenario. MissForest terbukti lebih adaptif terhadap mekanisme MCAR
maupun MAR, sedangkan MICE dengan varian random forest hanya stabil pada
MCAR dan cenderung menurun performanya pada MAR. Sebaliknya, tanpa
penanganan data hilang performa XGBoost menurun tajam pada semua metrik,
terutama pada proporsi data hilang 75%, sehingga meskipun XGBoost memiliki
mekanisme bawaan untuk menangani nilai hilang, proses imputasi tetap diperlukan
untuk menjaga struktur informasi antar level kategori. Temuan pada data simulasi
ini menegaskan bahwa kualitas metode imputasi sangat menentukan stabilitas dan
meningkatkan performa model klasifikasi pada data kategorik.
Sejalan dengan hasil simulasi tersebut, pada data empiris terkait kejadian
stunting pada balita di Jawa Barat, performa XGBoost, tanpa penanganan data
hilang juga menunjukkan ketidakseimbangan yang ekstrem, sehingga untuk
menangani data tak seimbang digunakan random oversampling. Hasil performa
evaluasi menunjukkan bahwa balanced accuracy sebesar 50%, yang menandakan
bahwa model gagal membedakan antara balita stunting dan tidak stunting secara
proporsional. Hal ini juga tampak dari sensitivitas yang sangat tinggi (100%), di
mana model mampu mengenali seluruh kasus stunting, namun spesifisitas bernilai
0%, yang berarti model sepenuhnya gagal mengidentifikasi balita tidak stunting.
Kondisi tersebut menggambarkan bahwa model XGBoost tanpa penanganan data
hilang, cenderung menggolongkan sebagian besar balita stunting, sehingga tidak
mencerminkan kejadian stunting sebenarnya.
Setelah dilakukan proses imputasi, performa XGBoost meningkat secara
signifikan. Metode MissForest menghasilkan balanced accuracy tertinggi yaitu
71,6%, dengan sensitivitas 75,25% dan spesifisitas 67,96%, yang menunjukkan
kemampuan model dalam mengenali kedua kelas lebih seimbang. Sementara itu,
MICE juga meningkatkan performa model dengan balanced accuracy 56,86%,
sensitivitas 60,58%, dan spesifisitas 53,13%, meskipun hasilnya masih belum
seoptimal MissForest, peningkatan performa setelah imputasi ini menunjukkan
bahwa pengisian data hilang membantu model mempelajari pola karakteristik balita
stunting dan tidak stunting secara lebih akurat. Temuan pada kajian empiris ini
sekaligus mengonfirmasi hasil pada data simulasi, bahwa MissForest merupakan
metode imputasi paling efektif dalam meningkatkan performa model XGBoost
pada data kategorik yang terdapat data hilang yang memiliki proporsi yang besar. Missing data problems frequently arise in data analysis, both in numerical
and categorical variables. Missing values may occur due to various factors such as
non-response, recording errors, or system input inconsistencies, and are statistically
classified into the mechanisms of missing completely at random (MCAR), missing
at random (MAR), and missing not at random (MNAR). In numerical variables,
missing data are relatively easier to recover. However, in categorical data, handling
missing values becomes more challenging because each category represents a
discrete class without numerical relationships, thus potentially altering the
proportion among levels and introducing classification bias.
Many classification models cannot be analyzed when missing values are
present, but XGBoost has a built in feature to handle missing data through the
missing incorporated in attribute (MIA) mechanism. Nevertheless, this mechanism
does not explicitly restore missing values and tends to be less optimal for
categorical variables. Therefore, an appropriate missing data handling method is
required. Two general approaches are available: deleting incomplete data, which
may reduce sample size and introduce bias, and imputing missing values, which is
generally preferable.
Recently, machine learning based imputation methods have become
increasingly popular due to their ability to capture complex relationships among
variables. In this study, MissForest and Multiple Imputation by Chained Equations
(MICE) with a Random Forest variant were used. MissForest is a nonparametric
imputation algorithm based on Random Forest that iteratively estimates missing
values by utilizing decision tree structures and ensemble learning. Meanwhile,
MICE performs repeated imputations on each variable with missing values using
Random Forest as its predictive model. Both methods are effective for categorical
data because they preserve nonlinear relationships among variables and minimize
distortion in category distribution, resulting in more stable imputations and
improved classification performance.
Based on these issues, this study aims to: (1) analyze the characteristics of
missing data and evaluate their impact on the imputation performance of MissForest
and MICE in simulated data, and (2) compare the performance of these two
imputation methods within the XGBoost model using both simulated data and
empirical data related to stunting in West Java Province.
This study uses simulated data and empirical data on stunting cases in West
Java. The simulated data were generated using a completely randomized factorial
design involving three factors: imputation method, proportion of missing data, and
combinations of variables containing missing values. The simulated dataset consists
of five categorical predictors and one binary response generated from a logistic
regression model, with missing data introduced under MCAR and MAR
mechanisms. The predictor variables were generated using a multinomial
distribution. Model performance was evaluated using accuracy, sensitivity, and
specificity, calculated from XGBoost classification results over 30 replications.
In the simulated data, MissForest produced the best performance, achieving
high accuracy and specificity with stable sensitivity across all scenarios. MissForest
proved more adaptive to both MCAR and MAR mechanisms, whereas MICE with
Random Forest was stable only under MCAR and showed decreased performance
under MAR. Conversely, without missing data handling, XGBoost performance
declined sharply across all metrics, especially at 75% missingness. This indicates
that although XGBoost has a built-in mechanism to handle missing values,
imputation is still necessary to maintain the structural information across
categorical levels. These simulation findings highlight that the quality of the
imputation method is crucial for ensuring stable predictions in categorical
classification tasks.
Consistent with the simulation results, the empirical data on stunting among
children in West Java also showed severe imbalance when XGBoost was applied
without missing data handling, so random oversampling is used to handle
imbalanced data, the evaluation performance results that the balanced accuracy was
only 50%, indicating that the model failed to proportionally distinguish between
stunted and non-stunted children. This is reflected in the extremely high sensitivity
(100%), where the model correctly identified all stunted cases, but specificity was
0%, meaning the model completely failed to identify non-stunted children. This
condition suggests that the model without imputation tended to classify most
children as stunted, thus failing to represent the actual stunting condition.
After performing imputation, XGBoost performance improved significantly.
MissForest yielded the highest balanced accuracy of 71.6%, with a sensitivity of
75.25% and specificity of 67.96%, indicating that the model was better able to
recognize both classes in a more balanced manner. MICE also improved model
performance with a balanced accuracy of 56.86%, sensitivity of 60.58%, and
specificity of 53.13%, although its results were still lower than those of MissForest.
These improvements demonstrate that imputing missing data helps the model learn
the characteristics of stunted and non stunted children more accurately and
consistently. The empirical findings reinforce the simulation results, confirming
that MissForest is the most effective imputation method for improving the
performance of the XGBoost model on categorical data with a high proportion of
missing data.
