Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/169058
Title: Kajian Metode Stacking Ensemble Learning dengan Meta-Model Categorical Principal Component Logistic Regression pada Data Kerawanan Pangan
Other Titles: 
Authors: Fitrianto, Anwar
Sadik, Kusman
Pangestika, Dhita Elsha
Issue Date: 2025
Publisher: IPB University
Abstract: Pembelajaran mesin merupakan cabang dari kecerdasan buatan yang banyak dimanfaatkan dalam pemodelan klasifikasi. Salah satu pendekatan yang populer adalah metode ensemble, yakni teknik yang menggabungkan beberapa model dasar (base-model) untuk meningkatkan performa klasifikasi. Secara umum, metode ensemble dibagi menjadi dua tipe, yaitu non-hybrid dan hybrid ensemble. Metode non-hybrid dibangun dari base-model sejenis. Contoh dari metode non-hybrid ensemble diantaranya random forest (RF), extra trees (ET), gradient boosting (GB), extreme gradient boosting (XGB), dan light gradient boosting (LGB). Sementara itu, hybrid ensemble merupakan metode ensemble yang dibangun dari base-model berbeda. Salah satu contoh dari metode ini adalah metode stacking ensemble learning (stacking). Stacking menggunakan hasil prediksi dari beberapa base-model sebagai input bagi meta-model, yang berfungsi sebagai aggregator prediksi akhir. Meskipun stacking dikenal mampu meningkatkan performa klasifikasi, hingga kini belum terdapat aturan baku dalam pemilihan meta-model yang optimal. Sejumlah studi telah dilakukan terkait dengan kajian pengaruh pemilihan meta-model terhadap performa model, di mana GB dan logistic regression (LR) terbukti unggul sebagai meta-model dibanding RF atau deep neural network (DNN) dalam beberapa kasus, sementara studi lain menunjukkan RF dan LR sebagai meta-model memiliki nilai sensitivity lebih tinggi dibandingkan SVM dan XGB. Di sisi lain, studi sebelumnya juga menunjukkan bahwa pendekatan Categorical Principal Component Logistic Regression (CATPCA-LR) memberikan hasil klasifikasi yang baik ketika peubah prediktor bersifat kategorik dan saling berasosiasi. Oleh karena itu, penelitian ini bertujuan mengkaji performa metode stacking dengan meta-model CATPCA-LR, dan membandingkannya dengan meta-model lain seperti LR, GB, dan RF, serta dengan masing-masing base-model. Kajian dilakukan pada data empiris dan data simulasi untuk memperkuat kesimpulan. Kajian empiris pada penelitian ini menggunakan data kerawanan pangan rumah tangga di Indonesia yang terdiri dari 24 peubah prediktor dan 335.724 observasi. Peubah prediktor pada kajian empiris dalam penelitian ini seluruhnya berskala kategorik. Hasil perbandingan kinerja model pada data kerawanan pangan menunjukkan bahwa metode stacking dengan meta-model CATPCA-LR dengan teknik SMOTE memberikan kinerja lebih baik dari sisi nilai sensitivity, balanced accuracy, F1-Score, dan G-Means. Model tersebut menghasilkan rata-rata nilai sensitivity sebesar 46,28 persen, nilai balanced accuracy sebesar 59,82 persen, nilai F1-Score sebesar 37,82 persen, dan nilai G-Means sebesar 58,2 persen. Sementara itu jika dikaji dari sisi nilai specificity, metode ET dan RF tanpa teknik SMOTE memberikan nilai yang paling tinggi dibandingkan dengan metode lainnya. Model tersebut menghasilkan rata-rata nilai specificity sebesar 100 persen. Dengan demikian, berdasarkan pada keseluruhan ukuran evaluasi model dan juga mempertimbangkan ukuran evaluasi sensitivity, model yang memberikan hasil terbaik pada kajian kerawanan pangan berasal dari metode stacking dengan meta model CATPCA-LR. Kajian data simulasi dalam penelitian ini dilakukan pada berbagai ukuran sampel, yaitu n = 500, 1.000, 2.000, 3.000, 4.000, 5.000, dan 6.000, dengan tujuan untuk mengevaluasi performa berbagai metode klasifikasi terhadap data dengan ketidakseimbangan kelas. Evaluasi dilakukan melalui analisis ragam dua arah (Two-Way Analysis of Variance (ANOVA)) dan uji lanjut BNJ (Beda Nyata Jujur) Tukey terhadap lima ukuran performa klasifikasi, yaitu sensitivity, specificity, F1 Score, balanced accuracy, dan G-Means. Hasil analisis menunjukkan bahwa baik ukuran sampel maupun metode klasifikasi memberikan pengaruh yang signifikan terhadap seluruh (n) ukuran performa yang diuji. Metode stacking dengan meta model CATPCA-LR memberikan performa yang paling baik pada nilai sensitivity di seluruh ukuran n, khususnya pada ukuran n = 5.000, di mana metode ini menunjukkan keunggulan signifikan dibandingkan metode lainnya. Nilai sensitivity yang tinggi tersebut juga berkontribusi dalam menghasilkan nilai balanced accuracy, F1-Score, dan G-Means yang tinggi, meskipun secara statistik, ketiganya tidak selalu berbeda signifikan dari metode lain berdasarkan uji BNJ. Sementara itu, dari sisi specificity, metode stacking dengan meta-model random forest (Stack(RF)) dan gradient boosting (Stack(GB)) memiliki nilai rata-rata specificity tertinggi, meskipun tidak berbeda signifikan dengan beberapa metode lain. Kesimpulan umum pada penelitian ini adalah berdasarkan kajian empiris dan simulasi, metode CATPCA-LR dapat dipertimbangkan menjadi alternatif sebagai meta-model yang efektif, khususnya pada data dengan kelas tidak seimbang.
Machine learning is a branch of artificial intelligence that is widely utilized in classification modeling. One of the popular approaches is the ensemble method, which combines several base models to improve classification performance. In general, ensemble methods are categorized into two types: non-hybrid ensembles and hybrid ensembles. Non-hybrid ensemble methods are built from homogeneous base models. Examples of non-hybrid ensemble methods include Random Forest (RF), Extra Trees (ET), Gradient Boosting (GB), Extreme Gradient Boosting (XGB), and Light Gradient Boosting (LGB). On the other hand, hybrid ensembles are constructed from heterogeneous base models. One example of a hybrid ensemble method is stacking ensemble learning (stacking), which uses the predictions from several base models as input for a meta-model that functions as the final prediction aggregator. Although stacking is known to enhance classification performance, there is currently no established rule for selecting the optimal meta-model. Several studies have investigated the influence of meta-model selection on model performance, with GB and Logistic Regression (LR) shown to outperform RF or Deep Neural Networks (DNN) in certain cases. Other studies indicate that RF and LR yield higher sensitivity values compared to SVM and XGB. Meanwhile, previous research has also demonstrated that the Categorical Principal Component Logistic Regression (CATPCA-LR) approach yields strong classification results when the predictor variables are categorical and exhibit associations. Therefore, this study aims to evaluate the performance of the stacking method using CATPCA-LR as a meta-model and compare it with other meta models such as LR, GB, and RF, as well as with each base model individually. The analysis was conducted on both empirical and simulated data to strengthen the conclusions. in The empirical study in this research utilized household food insecurity data Indonesia, comprising 24 categorical predictor variables and 335,724 observations. All predictor variables used in the empirical analysis are categorical. The comparison results on the food insecurity dataset indicate that the stacking method with the CATPCA-LR meta-model, combined with the SMOTE technique, outperforms other models in terms of sensitivity, balanced accuracy, F1-Score, and G-Means. This model achieved an average sensitivity of 46,28%, balanced accuracy of 59,82%, F1-Score of 37,82%, and G-Means of 58,2%. However, when viewed from the perspective of specificity, the ET and RF models without the SMOTE technique achieved the highest values compared to other methods, with an average specificity of 100%. Thus, based on overall evaluation metrics and particularly the sensitivity measure, the best-performing model on the food insecurity dataset is the stacking method with the CATPCA-LR meta-model. The simulation study in this research was conducted using various sample sizes: n = 500, 1.000, 2.000, 3.000, 4.000, 5.000, and 6.000, with the aim of evaluating the performance of different classification methods on imbalanced data. The evaluation involved a Two-Way ANOVA and Tukey’s Honest Significant Difference (HSD) test across five classification performance metrics: sensitivity, specificity, F1-Score, balanced accuracy, and G-Means. The analysis results show that both sample size and classification method significantly affect all evaluated performance metrics. The stacking method with the CATPCA-LR meta-model consistently achieved the best sensitivity performance across all sample sizes, particularly at n = 5.000, where it demonstrated statistically significant superiority over other methods. The high sensitivity values also contributed to higher values of balanced accuracy, F1-Score, and G-Means, although statistically, these three metrics were not always significantly different from other methods based on the HSD test. Meanwhile, in terms of specificity, the stacking models with Random Forest (Stack(RF)) and Gradient Boosting (Stack(GB)) achieved the highest average specificity values, although these were not significantly different from some other methods. The general conclusion of this study is that, based on both empirical and simulation analyses, the CATPCA-LR method can be considered an effective alternative as a meta-model, especially for classification tasks involving imbalanced data.
URI: http://repository.ipb.ac.id/handle/123456789/169058
Appears in Collections:MT - School of Data Science, Mathematic and Informatics

Files in This Item:
File Description SizeFormat 
cover_G1501212086_03d734cd3a5f4cf9a1768170fc4fd211.pdfCover779.32 kBAdobe PDFView/Open
fulltext_G1501212086_e4a8aa9746da4a5f9f82ec90a27bd816.pdf
  Restricted Access
Fulltext1.59 MBAdobe PDFView/Open
lampiran_G1501212086_eb114034e9be4267bac89fd220b6bdae.pdf
  Restricted Access
Lampiran673.79 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.