Kajian Metode Stacking Ensemble Learning dengan Meta-Model Categorical Principal Component Logistic Regression pada Data Kerawanan Pangan
Date
2025Author
Pangestika, Dhita Elsha
Fitrianto, Anwar
Sadik, Kusman
Metadata
Show full item recordAbstract
Pembelajaran mesin merupakan cabang dari kecerdasan buatan yang banyak
dimanfaatkan dalam pemodelan klasifikasi. Salah satu pendekatan yang populer
adalah metode ensemble, yakni teknik yang menggabungkan beberapa model dasar
(base-model) untuk meningkatkan performa klasifikasi. Secara umum, metode
ensemble dibagi menjadi dua tipe, yaitu non-hybrid dan hybrid ensemble. Metode
non-hybrid dibangun dari base-model sejenis. Contoh dari metode non-hybrid
ensemble diantaranya random forest (RF), extra trees (ET), gradient boosting (GB),
extreme gradient boosting (XGB), dan light gradient boosting (LGB). Sementara
itu, hybrid ensemble merupakan metode ensemble yang dibangun dari base-model
berbeda. Salah satu contoh dari metode ini adalah metode stacking ensemble
learning (stacking). Stacking menggunakan hasil prediksi dari beberapa base-model
sebagai input bagi meta-model, yang berfungsi sebagai aggregator prediksi akhir.
Meskipun stacking dikenal mampu meningkatkan performa klasifikasi, hingga kini
belum terdapat aturan baku dalam pemilihan meta-model yang optimal. Sejumlah
studi telah dilakukan terkait dengan kajian pengaruh pemilihan meta-model
terhadap performa model, di mana GB dan logistic regression (LR) terbukti unggul
sebagai meta-model dibanding RF atau deep neural network (DNN) dalam
beberapa kasus, sementara studi lain menunjukkan RF dan LR sebagai meta-model
memiliki nilai sensitivity lebih tinggi dibandingkan SVM dan XGB. Di sisi lain,
studi sebelumnya juga menunjukkan bahwa pendekatan Categorical Principal
Component Logistic Regression (CATPCA-LR) memberikan hasil klasifikasi yang
baik ketika peubah prediktor bersifat kategorik dan saling berasosiasi. Oleh karena
itu, penelitian ini bertujuan mengkaji performa metode stacking dengan meta-model
CATPCA-LR, dan membandingkannya dengan meta-model lain seperti LR, GB,
dan RF, serta dengan masing-masing base-model. Kajian dilakukan pada data
empiris dan data simulasi untuk memperkuat kesimpulan.
Kajian empiris pada penelitian ini menggunakan data kerawanan pangan
rumah tangga di Indonesia yang terdiri dari 24 peubah prediktor dan 335.724
observasi. Peubah prediktor pada kajian empiris dalam penelitian ini seluruhnya
berskala kategorik. Hasil perbandingan kinerja model pada data kerawanan pangan
menunjukkan bahwa metode stacking dengan meta-model CATPCA-LR dengan
teknik SMOTE memberikan kinerja lebih baik dari sisi nilai sensitivity, balanced
accuracy, F1-Score, dan G-Means. Model tersebut menghasilkan rata-rata nilai
sensitivity sebesar 46,28 persen, nilai balanced accuracy sebesar 59,82 persen, nilai
F1-Score sebesar 37,82 persen, dan nilai G-Means sebesar 58,2 persen. Sementara
itu jika dikaji dari sisi nilai specificity, metode ET dan RF tanpa teknik SMOTE
memberikan nilai yang paling tinggi dibandingkan dengan metode lainnya. Model
tersebut menghasilkan rata-rata nilai specificity sebesar 100 persen. Dengan
demikian, berdasarkan pada keseluruhan ukuran evaluasi model dan juga
mempertimbangkan ukuran evaluasi sensitivity, model yang memberikan hasil
terbaik pada kajian kerawanan pangan berasal dari metode stacking dengan meta
model CATPCA-LR.
Kajian data simulasi dalam penelitian ini dilakukan pada berbagai ukuran
sampel, yaitu n = 500, 1.000, 2.000, 3.000, 4.000, 5.000, dan 6.000, dengan tujuan
untuk mengevaluasi performa berbagai metode klasifikasi terhadap data dengan
ketidakseimbangan kelas. Evaluasi dilakukan melalui analisis ragam dua arah
(Two-Way Analysis of Variance (ANOVA)) dan uji lanjut BNJ (Beda Nyata Jujur)
Tukey terhadap lima ukuran performa klasifikasi, yaitu sensitivity, specificity, F1
Score, balanced accuracy, dan G-Means. Hasil analisis menunjukkan bahwa baik
ukuran sampel maupun metode klasifikasi memberikan pengaruh yang signifikan
terhadap seluruh (n) ukuran performa yang diuji. Metode stacking dengan meta
model CATPCA-LR memberikan performa yang paling baik pada nilai sensitivity
di seluruh ukuran n, khususnya pada ukuran n = 5.000, di mana metode ini
menunjukkan keunggulan signifikan dibandingkan metode lainnya. Nilai sensitivity
yang tinggi tersebut juga berkontribusi dalam menghasilkan nilai balanced
accuracy, F1-Score, dan G-Means yang tinggi, meskipun secara statistik, ketiganya
tidak selalu berbeda signifikan dari metode lain berdasarkan uji BNJ. Sementara itu,
dari sisi specificity, metode stacking dengan meta-model random forest (Stack(RF))
dan gradient boosting (Stack(GB)) memiliki nilai rata-rata specificity tertinggi,
meskipun tidak berbeda signifikan dengan beberapa metode lain.
Kesimpulan umum pada penelitian ini adalah berdasarkan kajian empiris dan
simulasi, metode CATPCA-LR dapat dipertimbangkan menjadi alternatif sebagai
meta-model yang efektif, khususnya pada data dengan kelas tidak seimbang. Machine learning is a branch of artificial intelligence that is widely utilized
in classification modeling. One of the popular approaches is the ensemble method,
which combines several base models to improve classification performance. In
general, ensemble methods are categorized into two types: non-hybrid ensembles
and hybrid ensembles. Non-hybrid ensemble methods are built from homogeneous
base models. Examples of non-hybrid ensemble methods include Random Forest
(RF), Extra Trees (ET), Gradient Boosting (GB), Extreme Gradient Boosting
(XGB), and Light Gradient Boosting (LGB). On the other hand, hybrid ensembles
are constructed from heterogeneous base models. One example of a hybrid
ensemble method is stacking ensemble learning (stacking), which uses the
predictions from several base models as input for a meta-model that functions as
the final prediction aggregator. Although stacking is known to enhance
classification performance, there is currently no established rule for selecting the
optimal meta-model. Several studies have investigated the influence of meta-model
selection on model performance, with GB and Logistic Regression (LR) shown to
outperform RF or Deep Neural Networks (DNN) in certain cases. Other studies
indicate that RF and LR yield higher sensitivity values compared to SVM and XGB.
Meanwhile, previous research has also demonstrated that the Categorical Principal
Component Logistic Regression (CATPCA-LR) approach yields strong
classification results when the predictor variables are categorical and exhibit
associations. Therefore, this study aims to evaluate the performance of the stacking
method using CATPCA-LR as a meta-model and compare it with other meta
models such as LR, GB, and RF, as well as with each base model individually. The
analysis was conducted on both empirical and simulated data to strengthen the
conclusions.
in
The empirical study in this research utilized household food insecurity data
Indonesia, comprising 24 categorical predictor variables and 335,724
observations. All predictor variables used in the empirical analysis are categorical.
The comparison results on the food insecurity dataset indicate that the stacking
method with the CATPCA-LR meta-model, combined with the SMOTE technique,
outperforms other models in terms of sensitivity, balanced accuracy, F1-Score, and
G-Means. This model achieved an average sensitivity of 46,28%, balanced
accuracy of 59,82%, F1-Score of 37,82%, and G-Means of 58,2%. However, when
viewed from the perspective of specificity, the ET and RF models without the
SMOTE technique achieved the highest values compared to other methods, with an
average specificity of 100%. Thus, based on overall evaluation metrics and
particularly the sensitivity measure, the best-performing model on the food
insecurity dataset is the stacking method with the CATPCA-LR meta-model.
The simulation study in this research was conducted using various sample
sizes: n = 500, 1.000, 2.000, 3.000, 4.000, 5.000, and 6.000, with the aim of
evaluating the performance of different classification methods on imbalanced data.
The evaluation involved a Two-Way ANOVA and Tukey’s Honest Significant
Difference (HSD) test across five classification performance metrics: sensitivity,
specificity, F1-Score, balanced accuracy, and G-Means. The analysis results show
that both sample size and classification method significantly affect all evaluated
performance metrics. The stacking method with the CATPCA-LR meta-model
consistently achieved the best sensitivity performance across all sample sizes,
particularly at n = 5.000, where it demonstrated statistically significant superiority
over other methods. The high sensitivity values also contributed to higher values of
balanced accuracy, F1-Score, and G-Means, although statistically, these three
metrics were not always significantly different from other methods based on the
HSD test. Meanwhile, in terms of specificity, the stacking models with Random
Forest (Stack(RF)) and Gradient Boosting (Stack(GB)) achieved the highest
average specificity values, although these were not significantly different from
some other methods.
The general conclusion of this study is that, based on both empirical and
simulation analyses, the CATPCA-LR method can be considered an effective
alternative as a meta-model, especially for classification tasks involving
imbalanced data.
