Penerapan Algoritma Optimasi Artificial Bee Colony Dan Cuckoo Search dalam Pemodelan Stacking

Yudhianto, Rachmat Bintang

View/Open

Cover (713.5Kb)

Fulltext (3.247Mb)

Lampiran (2.050Mb)

Date

2026

Author

Yudhianto, Rachmat Bintang

Soleh, Agus Mohamad

Kurnia, Anang

Metadata

Show full item record

Abstract

Pemanfaatan metode machine learning pada era saat ini mengalami perkembangan yang pesat, ditandai dengan semakin banyaknya model yang digunakan untuk menyelesaikan permasalahan klasifikasi dan prediksi. Perkembangan tersebut mendorong munculnya metode ensemble learning, salah satunya adalah Stacking Ensemble, yang mengombinasikan beberapa model pembelajaran untuk menghasilkan kinerja prediksi yang lebih akurat dan optimal. Berdasarkan penelitian sebelumnya, metode Stacking terbukti mampu mengurangi bias serta meningkatkan akurasi dengan mempertimbangkan kontribusi dari masing-masing model yang tergabung di dalamnya. Oleh karena itu, diperlukan suatu mekanisme optimasi untuk memperoleh kinerja terbaik dari setiap model yang digunakan. Penelitian ini bertujuan untuk menerapkan algoritma optimasi metaheuristik dalam meningkatkan performa prediksi pada metode Stacking Ensemble. Algoritma optimasi yang digunakan dalam penelitian ini adalah Artificial Bee Colony dan Cuckoo Search, yang diterapkan dan dibandingkan kinerjanya dalam mengoptimasi metode Stacking Ensemble dengan model dasar yang terdiri atas Decision Tree, k-Nearest Neighbor, Support Vector Machine, dan Naïve Bayes. Penelitian ini bertujuan untuk merancang dan menguji pemodelan Stacking Ensemble dengan menerapkan algoritma optimasi Artificial Bee Colony dan Cuckoo Search pada empat model dasar, yaitu Decision Tree, k-Nearest Neighbor, Support Vector Machine, dan Naïve Bayes. Setiap model dasar memiliki fungsi hiperparameter (hyperparameter tuning) masing-masing. Peran algoritma Artificial Bee Colony dan Cuckoo Search dalam penelitian ini adalah mengoptimalkan hyperparameter dari setiap model dasar guna memaksimalkan kinerja prediksi, yang selanjutnya digabungkan ke dalam model Stacking Ensemble. Penerapan algoritma optimasi dalam penelitian ini dibagi ke dalam tiga skema pemodelan yang dilakukan secara berurutan. Skema pertama merupakan penerapan model Stacking Ensemble tanpa optimasi, skema kedua merupakan penerapan model Stacking Ensemble dengan optimasi Artificial Bee Colony, dan skema ketiga merupakan penerapan model Stacking Ensemble dengan optimasi Cuckoo Search. Ketiga skema tersebut selanjutnya dibandingkan untuk menentukan skema pemodelan terbaik berdasarkan hasil kinerjanya pada setiap dataset yang digunakan. Penelitian ini memanfaatkan kombinasi data acuan dan data empiris dalam penerapan ketiga skema pemodelan. Data acuan merupakan kumpulan dataset yang telah tersedia dan digunakan pada penelitian-penelitian sebelumnya, yang terdiri atas enam dataset antara lain Australian, Breast Cancer Winconsin, Cleaveland Heart Disease, Ionosphere, German Credit Fraud, dan Missing Migrants. Alur pemodelan pada setiap skema diawali dengan tahap pre-processing dan pembersihan data sebelum dilakukan pemodelan, yang meliputi pengecekan data hilang dan visualisasi data untuk memperoleh informasi awal dari masing-masing dataset yang digunakan. Setiap dataset dalam penelitian ini diterapkan pada ketiga skema pemodelan, kemudian dibandingkan berdasarkan nilai accuracy, balanced accuracy dan ¬F1-Score serta visualisasi sebaran kinerjanya berdasarkan sepuluh kali perulangan dengan Boxplot. Prosedur yang dilakukan juga diuji pada dua dataset empiris, yaitu data klasifikasi kualitas produk edamame dari PT Mitra Tani Dua Tujuh, Kabupaten Jember (150 amatan), serta data klasifikasi curah hujan wilayah Bogor, Jawa Barat dari BMKG (366 amatan atau satu tahun pengamatan). Hasil analisis secara keseluruhan menunjukkan bahwa skema Stacking dengan optimasi Artificial Bee Colony (ABC) cenderung menghasilkan kinerja yang paling stabil. Hal ini ditunjukkan oleh rentang interkuartil (IQR) dengan visualisasi boxplot yang lebih kecil serta nilai median yang relatif lebih tinggi dibandingkan skema pemodelan lainnya, yang mengindikasikan bahwa model tersebut memiliki tingkat robustness yang lebih baik terhadap variasi data antar perulangan. Namun demikian, pada dataset dengan karakteristik yang relatif homogen, ditemukan indikasi bahwa Decision Tree cenderung menghasilkan skor ketiga metrik accuracy, balanced accuracy, F1-Score yang sangat tinggi hingga mendekati sempurna (0,95–1,00). Kondisi ini mengindikasikan potensi bias model dan dapat memengaruhi validitas kinerja akhir pada skema Stacking, khususnya apabila model tersebut berkontribusi secara dominan dalam proses penggabungan prediksi. Berdasarkan pengujian statistik, hasil uji ANOVA pada sebagian besar dataset yang digunakan, yaitu Australian, Breast Cancer Wisconsin, Cleaveland Heart Disease, Ionosphere, dan Missing Migrants, menunjukkan bahwa tidak terdapat perbedaan kinerja yang signifikan antara model Stacking tanpa optimasi dan Stacking dengan optimasi metaheuristik Artificial Bee Colony dan Cuckoo Search, dengan nilai p > 0,05. Pengecualian ditemukan pada dua kasus tertentu, yaitu pada dataset German Credit Fraud, dimana model Stacking tanpa optimasi menunjukkan kinerja yang secara signifikan lebih baik pada metrik balanced accuracy dengan nilai p < 0,001 dan pada dataset Curah Hujan yang memperlihatkan perbedaan yang sangat signifikan pada metrik accuracy dengan nilai p < 0,001, hal ini mengindikasikan adanya pengaruh skema pemodelan terhadap tingkat ketepatan klasifikasi. Penelitian ini menyimpulkan bahwa pemodelan klasifikasi dengan skema kedua yaitu dengan menerapkan Algoritma Optimasi Artificial Bee Colony mampu membuat model Stacking secara konsisten lebih baik dan robust pada berbagai ulangan kondisi, hal ini tercermin dari penyempitan rentang interkuartil dan konsistensi nilai median pada berbagai metrik evaluasi. Namun, peningkatan kestabilan model tidak selalu diikuti oleh perbedaan kinerja yang signifikan secara statistik, yang mengindikasikan bahwa efektivitas optimasi sangat bergantung pada karakteristik dataset, khususnya homogenitas data, ukuran sampel, dan distribusi kelas target. Pada dataset dengan struktur relatif sederhana atau ketidakseimbangan kelas yang tidak ekstrem, kontribusi optimasi terhadap peningkatan kinerja cenderung terbatas. Oleh karena itu, penelitian ini menegaskan bahwa penerapan optimasi metaheuristik, seperti Artificial Bee Colony dan Cuckoo Search, tidak dapat digeneralisasi dan harus mempertimbangkan secara cermat praproses data, ketidakseimbangan kelas, serta pemilihan base model dalam Stacking Ensemble.

The utilization of machine learning methods has advanced rapidly in the current era, characterized by an increasing number of models used to address classification and prediction problems. This development has driven the emergence of ensemble learning methods, one of which is Stacking Ensemble, which combines several learning models to produce more accurate and optimal predictive performance. Based on previous research, the Stacking method has proven capable of reducing bias and increasing accuracy by considering the contribution of each model within it. Therefore, an optimization mechanism is required to obtain the best performance from each model used. This research aims to apply metaheuristic optimization algorithms to enhance predictive performance in the Stacking Ensemble method. The optimization algorithms utilized in this study are Artificial Bee Colony (ABC) and Cuckoo Search (CS), which are applied and compared in their performance for optimizing a Stacking Ensemble model consisting of base models: Decision Tree, k-Nearest Neighbor, Support Vector Machine, and Naïve Bayes. Specifically, This research aims to design and test Stacking Ensemble modeling by applying the Artificial Bee Colony and Cuckoo Search optimization algorithms to the four base models. Each base model has its own specific hyperparameters. The role of the Artificial Bee Colony and Cuckoo Search algorithms in this study is to optimize the hyperparameters of each base model to maximize predictive performance, which is subsequently integrated into the Stacking Ensemble model. The application of optimization algorithms in this research is divided into three sequential modeling schemes. The first scheme is the implementation of the Stacking Ensemble model without optimization; the second scheme involves the Stacking Ensemble model with Artificial Bee Colony optimization; and the third scheme involves the Stacking Ensemble model with Cuckoo Search optimization. These three schemes are then compared to determine the best modeling approach based on performance results across each dataset used. This study utilizes a combination of reference data and empirical data in the implementation of the three modeling schemes. The reference data consists of a collection of datasets available from and used in previous studies, comprising six datasets: Australian, Breast Cancer Wisconsin, Cleveland Heart Disease, Ionosphere, German Credit Fraud, and Missing Migrants. The modeling workflow for each scheme begins with a pre-processing and data cleaning stage before modeling, which includes checking for missing data and data visualization to obtain preliminary information from each dataset. Each dataset in this study is applied to all three modeling schemes and then compared based on accuracy, balanced accuracy, and F1-Score values, as well as the visualization of performance distribution based on ten iterations using Boxplots. The procedures were also tested on two empirical datasets: edamame product quality classification data from PT Mitra Tani Dua Tujuh, Jember Regency (150 observations), and rainfall classification data for the Bogor region, West Java, from the BMKG (366 observations or one year of monitoring). The overall analysis results indicate that the Stacking scheme with Artificial Bee Colony (ABC) optimization tends to produce the most stable performance. This is demonstrated by a smaller interquartile range (IQR) in the boxplot visualizations and a relatively higher median value compared to other modeling schemes, indicating that the model possesses a better level of robustness against data variations across iterations. Nevertheless, in datasets with relatively homogeneous characteristics, indications were found that Decision Tree tends to produce very high scores across all three metrics—accuracy, balanced accuracy, and F1-Score—approaching perfection (0.95–1.00). This condition indicates potential model bias and may affect the validity of the final performance in the Stacking scheme, especially if the model contributes dominantly during the prediction aggregation process. Based on statistical testing, ANOVA results on most of the datasets used—namely Australian, Breast Cancer Wisconsin, Cleveland Heart Disease, Ionosphere, and Missing Migrants—show that there is no significant difference in performance between the Stacking model without optimization and Stacking with Artificial Bee Colony and Cuckoo Search metaheuristic optimization, with a p-value > 0.05. Exceptions were found in two specific cases: the German Credit Fraud dataset, where the Stacking model without optimization showed significantly better performance on the balanced accuracy metric with a p-value < 0.001, and the Rainfall dataset, which showed a highly significant difference in the accuracy metric with a p-value < 0.001, indicating the influence of the modeling scheme on the level of classification accuracy. This research concludes that classification modeling using the second scheme—by applying the Artificial Bee Colony optimization algorithm—is capable of making the Stacking model consistently better and more robust across various iteration conditions. This is reflected in the narrowing of the interquartile range and the consistency of median values across various evaluation metrics. However, the increase in model stability is not always followed by statistically significant differences in performance, indicating that the effectiveness of optimization depends heavily on dataset characteristics, particularly data homogeneity, sample size, and target class distribution. In datasets with relatively simple structures or non-extreme class imbalances, the contribution of optimization toward performance improvement tends to be limited. Therefore, this study emphasizes that the application of metaheuristic optimization, such as Artificial Bee Colony and Cuckoo Search, cannot be generalized and must carefully consider data preprocessing, class imbalance, and the selection of base models within the Stacking Ensemble.

URI

http://repository.ipb.ac.id/handle/123456789/172653

Collections

MT - School of Data Science, Mathematic and Informatics [96]