<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" version="2.0">
<channel>
<title>MT - School of Data Science, Mathematic and Informatics</title>
<link>http://repository.ipb.ac.id/handle/123456789/160870</link>
<description>School of Data Science, Mathematic and Informatics</description>
<pubDate>Wed, 03 Jun 2026 15:59:26 GMT</pubDate>
<dc:date>2026-06-03T15:59:26Z</dc:date>
<item>
<title>Klasifikasi Halaman Web Berbasis Machine Learning untuk Optimasi SEO Menggunakan Fitur Numerik dan Semantik Berbasis IndoBERT</title>
<link>http://repository.ipb.ac.id/handle/123456789/173103</link>
<description>Klasifikasi Halaman Web Berbasis Machine Learning untuk Optimasi SEO Menggunakan Fitur Numerik dan Semantik Berbasis IndoBERT
Nuradilla, Siti
Meningkatnya volume data teks telah memperkuat kebutuhan akan metode yang efektif untuk mengekstraksi informasi yang bermakna, khususnya pada search engine optimization (SEO). Pada proses optimasi SEO, ekstraksi makna semantik menjadi krusial karena relevansi halaman tidak hanya dipengaruhi oleh panjang karakter komponen on-page, namun juga koherensi antar komponennya, meliputi title, meta description, H1, dan address. Namun, evaluasi SEO masih dilakukan secara manual, sehingga kurang efisien dan rentan terhadap bias subjektif. Penelitian sebelumnya hanya berfokus pada indikator permukaan seperti kepadatan kata kunci dan bergantung pada dataset empiris, sehingga belum menjamin keandalan model pada kondisi data yang berbeda. Oleh karena itu, diperlukan pembangkitan data sintetis yang dapat merepresentasikan beragam skenario distribusi data, sehingga ketahanan dan konsistensi performa model dapat diuji secara lebih komprehensif.&#13;
Untuk mengatasi keterbatasan tersebut, penelitian ini bertujuan untuk mengevaluasi kemampuan model GPT yang di-fine-tune dalam membangkitkan data sintetis yang merepresentasikan karakteristik SEO on-page. Selanjutnya, penelitian ini juga menganalisis karakteristik model klasifikasi halaman web dengan memanfaatkan fitur numerik berupa panjang karakter komponen SEO on-page, serta fitur semantik berupa tingkat koherensi antar komponen yang diperoleh melalui proses embedding menggunakan IndoBERT. Koherensi semantik diukur menggunakan cosine similarity antar komponen SEO on-page untuk merepresentasikan keselarasan konteks antar komponen. Berdasarkan fitur tersebut, halaman web diklasifikasikan menjadi SEO-friendly dan non-SEO-friendly menggunakan Random Forest, XGBoost, LightGBM, dan TabNet. Penelitian menggunakan delapan dataset, terdiri atas satu dataset empiris berisi 10.791 halaman web dan tujuh dataset sintetis dengan variasi tingkat koherensi (20%–80%). Data empiris dikumpulkan menggunakan Screaming Frog SEO Spider untuk memperoleh komponen SEO on-page seperti title, meta description, address, dan heading, sedangkan Semrush digunakan untuk memperoleh data peringkat halaman pada SERP yang dimanfaatkan dalam proses pelabelan kelas SEO-friendly dan non-SEO-friendly. Proses penelitian meliputi prapemrosesan, representasi teks, penghitungan koherensi, serta pelatihan dan evaluasi model, sementara kualitas data sintetis dievaluasi menggunakan metrik diversity, novelty, dan duplication.&#13;
Hasil eksplorasi menunjukkan bahwa halaman SEO-friendly memiliki pola yang lebih konsisten dalam panjang teks dan koherensi semantik dibandingkan halaman non-SEO-friendly. Selain itu, model GPT mampu menghasilkan data sintetis dengan kualitas yang baik, ditunjukkan oleh nilai diversity yang tinggi (0,9–1), novelty pada rentang 0,7–0,85, serta tingkat duplikasi yang sangat rendah (&lt;0,06%). Temuan ini menunjukkan bahwa data sintetis yang dihasilkan mampu merepresentasikan variasi kondisi data dan mendukung proses klasifikasi dengan lebih komprehensif.&#13;
Pada tahap pemodelan, dilakukan perbandingan antara Random Forest, XGBoost, LightGBM, dan TabNet pada data empiris dan data sintetis. Pada data sintetis, performa model menunjukkan pola yang berbeda pada setiap tingkat koherensi. XGBoost dan LightGBM cenderung lebih kompetitif pada koherensi rendah hingga menengah, sedangkan TabNet mulai menunjukkan performa yang lebih tinggi pada koherensi tinggi. Pada data empiris, Random Forest memperoleh performa yang tinggi dengan balanced accuracy sebesar 0,8677, diikuti oleh XGBoost (0,8654) dan LightGBM (0,8605). Temuan ini sejalan dengan kajian awal (baseline) yang menunjukkan bahwa Random Forest sangat efektif dalam menangkap pola dominan pada distribusi data nyata yang relatif stabil. Namun, Random Forest cenderung mengalami penurunan performa pada struktur semantik antar kelas yang kurang tegas. Sebaliknya, model boosting yaitu XGBoost dan LightGBM menunjukkan performa yang lebih konsisten di berbagai tingkat koherensi, dengan nilai balanced accuracy yang kompetitif serta variasi performa yang relatif kecil. Performa terbaik secara umum dicapai pada skenario koherensi menengah (40%), di mana perbedaan karakteristik antar kelas menjadi lebih jelas. Sementara itu, pada koherensi rendah (20%–30%) dan tinggi (70%–80%), performa model cenderung menurun akibat meningkatnya ambiguitas atau homogenitas distribusi data. &#13;
Hasil uji statistik menunjukkan bahwa performa klasifikasi berbeda pada setiap tingkat koherensi dan bergantung pada jenis model yang digunakan. Uji lanjut perbandingan nilai tengah berganda dengan penyesuaian Holm memperlihatkan bahwa keunggulan model bersifat kontekstual, di mana Random Forest unggul pada data empiris, XGBoost dan LightGBM menunjukkan performa yang kompetitif pada koherensi rendah hingga menengah, sedangkan TabNet unggul pada koherensi tinggi. Dalam konteks implementasi sistem evaluasi SEO otomatis pada lingkungan data yang dinamis, model berbasis boosting, khususnya XGBoost, menunjukkan performa yang relatif stabil baik pada data empiris maupun berbagai tingkat koherensi data sintetis. Temuan ini menunjukkan bahwa model berbasis boosting memiliki potensi yang baik untuk digunakan pada kondisi data SEO on-page yang bervariasi.; The increasing volume of textual data has strengthened the need for effective methods to extract meaningful information, particularly in the context of search engine optimization (SEO). In SEO optimization, semantic information extraction is crucial because page relevance is influenced not only by the character length of on-page components, but also by the coherence among components, including title, meta description, H1, and address. However, SEO evaluation is still commonly performed manually, making it less efficient and prone to subjective bias. Previous studies have primarily focused on surface-level indicators such as keyword density and relied heavily on empirical datasets, which limits the reliability of models under varying data conditions. Therefore, synthetic data generation is required to represent diverse data distribution scenarios, enabling a more comprehensive evaluation of model robustness and performance consistency.&#13;
To address these limitations, this study aims to evaluate the capability of a fine-tuned GPT model in generating synthetic data that represent the characteristics of SEO on-page components. Furthermore, this study analyzes the characteristics of web page classification models by utilizing numerical features in the form of character lengths of SEO on-page components, as well as semantic features represented by the coherence level among components obtained through an embedding process using IndoBERT. Semantic coherence is measured using cosine similarity among SEO on-page components to represent contextual alignment between components. Based on these features, web pages are classified into SEO-friendly and non-SEO-friendly categories using Random Forest, XGBoost, LightGBM, and TabNet.&#13;
This study utilizes eight datasets, consisting of one empirical dataset containing 10,791 web pages and seven synthetic datasets with varying coherence levels (20%–80%). The empirical data were collected using Screaming Frog SEO Spider to obtain SEO on-page components such as title, meta description, address, and heading, while Semrush was used to extract SERP ranking data utilized in the labeling process for SEO-friendly and non-SEO-friendly classes. The research process includes preprocessing, text representation, coherence calculation, as well as model training and evaluation, while the quality of synthetic data is evaluated using diversity, novelty, and duplication metrics.&#13;
Exploratory results indicate that SEO-friendly pages exhibit more consistent patterns in text length and semantic coherence compared to non-SEO-friendly pages. Additionally, the GPT model successfully generates high-quality synthetic data, as indicated by high diversity scores (0.9–1.0), novelty values ranging from 0.7 to 0.85, and extremely low duplication rates (&lt;0.06%). These findings suggest that the generated synthetic data effectively represent diverse data conditions and support more comprehensive classification experiments.&#13;
In the modeling stage, Random Forest, XGBoost, LightGBM, and TabNet were compared using both empirical and synthetic datasets. On synthetic datasets, model performance patterns varied across different coherence levels. XGBoost and LightGBM tended to perform more competitively at low to medium coherence levels, whereas TabNet achieved higher performance at high coherence levels. On the empirical dataset, Random Forest achieved a high balanced accuracy of 0.8677, followed by XGBoost (0.8654) and LightGBM (0.8605). These findings are consistent with the baseline analysis, which showed that Random Forest is highly effective in capturing dominant patterns within relatively stable real-world data distributions. However, Random Forest tended to experience performance degradation when semantic boundaries between classes became less distinct. In contrast, boosting-based models, namely XGBoost and LightGBM, demonstrated more consistent performance across various coherence levels, achieving competitive balanced accuracy values with relatively low performance variation. Overall, the best performance was generally observed at medium coherence levels (40%), where semantic relationships among classes became more distinguishable. Meanwhile, at low coherence levels (20%–30%) and high coherence levels (70%–80%), model performance tended to decline due to increasing ambiguity or homogeneity in data distributions.&#13;
Statistical analysis results showed that classification performance differed across coherence levels and depended on the type of model used. Holm-adjusted multiple comparison tests further revealed that model superiority was contextual, where Random Forest performed best on empirical data, XGBoost and LightGBM showed competitive performance at low to medium coherence levels, and TabNet achieved the best performance at high coherence levels. In the context of implementing automated SEO evaluation systems in dynamic data environments, boosting-based models, particularly XGBoost, demonstrated relatively stable performance across both empirical data and multiple synthetic coherence scenarios. These findings suggest that boosting-based models have strong potential for implementation in on-page SEO evaluation tasks involving diverse data characteristics.
</description>
<pubDate>Thu, 01 Jan 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://repository.ipb.ac.id/handle/123456789/173103</guid>
<dc:date>2026-01-01T00:00:00Z</dc:date>
</item>
<item>
<title>Model Klasifikasi Komoditas dan Estimasi Hari Setelah Tanam untuk Padi dan Tebu Menggunakan Machine Learning</title>
<link>http://repository.ipb.ac.id/handle/123456789/172946</link>
<description>Model Klasifikasi Komoditas dan Estimasi Hari Setelah Tanam untuk Padi dan Tebu Menggunakan Machine Learning
Hanum, Fatmi Aulia
Swasembada pangan merupakan kemampuan suatu wilayah dalam memenuhi kebutuhan pangan secara mandiri. Sektor pertanian merupakan penopang utama dari swasembada pangan. Walau demikian, sektor pertanian berpotensi mengalami penurunan kontribusi seiring peningkatan laju pertumbuhan populasi, degradasi lahan, dan perubahan iklim. Kemampuan adaptasi menjadi krusial dalam menghadapi perkembangan dan tantangan penurunan kontribusi pertanian. Salah satu tren penurunan kontribusi pernah terjadi di Provinsi Jawa Timur pada tahun 2019 hingga 2024. Provinsi Jawa Timur merupakan wilayah pertanian terluas di Indonesia, khususnya pada komoditas padi dan tebu. Akan tetapi, proses monitoring komoditas dan Hari Setelah Tanam (HST) di Provinsi Jawa Timur belum dilakukan menggunakan machine learning dan deep learning. Proses monitoring masih dilakukan berdasarkan survei oleh Penyuluh Pertanian Lapangan (PPL). Adaptasi proses monitoring dapat dilakukan dengan implementasi smart farming berbasiskan pertanian presisi dengan pendayagunaan remote sensing dan Artificial Intelligent (AI) untuk menghasilkan informasi yang tepat dan cepat. Penelitian ini bertujuan untuk pembuatan model klasifikasi komoditas dengan mengimplementasikan algoritma Random Forest (RF), Support Vector Machine (SVM), algoritma Extreme Gradient Boosting (XGBoost), serta Convolutional Neural Network (CNN). Hasil klasifikasi digunakan untuk estimasi HST menggunakan analisis phenology indeks vegetasi tanaman. Penelitian dilakukan dengan empat tahapan inti yaitu, pengumpulan dan seleksi data, eksplorasi dan praproses data, pemodelan, serta evaluasi. Data yang digunakan dalam klasifikasi komoditas yaitu data survei lapangan, administrasi wilayah, Sentinel 2A, Sentinel 1A, GLCM (Gray Level Co-occurrence Matrix), SRTM (Shuttle Radar Topography Mission), terrain, dan CHIRPS (Climate Hazards Center Infrared Precipitation). Pengolahan data citra dilakukan dalam satu proses stacking GEE. Data dibagi menjadi data latih dan data uji. Pencarian parameter model terbaik dilakukan dengan hyperparameter tuning. Pemodelan komoditas dilakukan dengan algoritma RF, SVM, XGBoost, dan CNN. Hasil pemodelan dievaluasi dengan akurasi, classification report dan confussion matrix. Proses estimasi HST dilakukan setelah pengklasifikasian komoditas dan deteksi masa tanam. Proses deteksi masa tanam dan estimasi HST dilakukan dengan identifikasi phenology. Identifikasi phenology dilakukan dengan membandingkan penggunaan Sentinel 1A, Sentinel 2A, dan gabungan Sentinel 1A dan Sentinel 2A. Akurasi estimasi HST dievaluasi dengan R2, RMSE, dan MAE. Hasil penelitian menunjukan proses klasifikasi komoditas terbaik diperoleh dari algoritma XGBoost, yang memiliki akurasi tertinggi sebesar 91% dengan recall 93% untuk tanaman padi dan 91% untuk tanaman tebu. Sementara estimasi HST terbaik diperoleh dengan menggunakan citra Sentinel 1A dengan akurasi 90% dengan rentang perbedaan hari berkisar 3 hingga 18 hari.; Food self sufficiency is the ability of a region to independently meet its food needs. The agricultural sector serves as the primary pillar of food self-sufficiency. Nevertheless, the sector has the potential to experience a decline in contribution due to increasing population growth, land degradation, and ongoing climate change. Adaptive capacity becomes crucial in addressing the evolving challenges associated with the declining contribution of agriculture. A declining trend in agricultural contribution was observed in East Java Province from 2019 to 2024. East Java Province is the largest agricultural region in Indonesia, particularly for rice and sugarcane commodities. However, the monitoring process for commodities and Days After Planting (HST) in East Java has not yet utilized machine learning and deep learning approaches. The monitoring process is still conducted through surveys by Agricultural Extension Workers (PPL). Adaptation of the monitoring process can be achieved through the implementation of smart farming based on precision agriculture by leveraging remote sensing and Artificial Intelligence (AI) to produce accurate and timely information. This study aims to develop a commodity classification model by implementing Random Forest (RF), Support Vector Machine (SVM), Extreme Gradient Boosting (XGBoost), and Convolutional Neural Network (CNN) algorithms. The classification results are then used to estimate HST through phenological analysis of vegetation indices. The study was conducted through four main stages: data collection and selection, data exploration and preprocessing, modeling, and evaluation. The data used for commodity classification included field survey data, administrative area data, Sentinel 2A, Sentinel 1A, GLCM (Gray Level Co-occurrence Matrix), SRTM (Shuttle Radar Topography Mission), terrain, and CHIRPS (Climate Hazards Center Infrared Precipitation). Image data processing was performed through a single stacking process in GEE. The dataset was divided into training and testing data. The search for the best model parameters was carried out using hyperparameter tuning. Commodity modeling was performed using RF, SVM, XGBoost, and CNN algorithms. The modeling results were evaluated by accuracy, classification report, and confusion matrix. The HST estimation process was carried out after commodity classification and planting season detection. The planting season detection and HST estimation were conducted through phenology identification. Phenology identification was performed by comparing Sentinel 1A, Sentinel 2A, and a combination of Sentinel 1A and Sentinel 2A. The  HST estimation was evaluated using R², RMSE, and MAE. The results showed that the best commodity classification performance was achieved by the XGBoost algorithm, which attained the highest accuracy of 91%, with recall values of 93% for rice and 91% for sugarcane. Meanwhile, the best HST estimation was obtained using Sentinel 1A imagery, with an accuracy of 90% and a day-difference range of 3 to 18 days.
</description>
<pubDate>Thu, 01 Jan 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://repository.ipb.ac.id/handle/123456789/172946</guid>
<dc:date>2026-01-01T00:00:00Z</dc:date>
</item>
<item>
<title>Penerapan Algoritma Optimasi Artificial Bee Colony Dan Cuckoo Search dalam Pemodelan Stacking</title>
<link>http://repository.ipb.ac.id/handle/123456789/172653</link>
<description>Penerapan Algoritma Optimasi Artificial Bee Colony Dan Cuckoo Search dalam Pemodelan Stacking
Yudhianto, Rachmat Bintang
Pemanfaatan metode machine learning pada era saat ini mengalami perkembangan yang pesat, ditandai dengan semakin banyaknya model yang digunakan untuk menyelesaikan permasalahan klasifikasi dan prediksi. Perkembangan tersebut mendorong munculnya metode ensemble learning, salah satunya adalah Stacking Ensemble, yang mengombinasikan beberapa model pembelajaran untuk menghasilkan kinerja prediksi yang lebih akurat dan optimal. Berdasarkan penelitian sebelumnya, metode Stacking terbukti mampu mengurangi bias serta meningkatkan akurasi dengan mempertimbangkan kontribusi dari masing-masing model yang tergabung di dalamnya. Oleh karena itu, diperlukan suatu mekanisme optimasi untuk memperoleh kinerja terbaik dari setiap model yang digunakan. Penelitian ini bertujuan untuk menerapkan algoritma optimasi metaheuristik dalam meningkatkan performa prediksi pada metode Stacking Ensemble. Algoritma optimasi yang digunakan dalam penelitian ini adalah Artificial Bee Colony dan Cuckoo Search, yang diterapkan dan dibandingkan kinerjanya dalam mengoptimasi metode Stacking Ensemble dengan model dasar yang terdiri atas Decision Tree, k-Nearest Neighbor, Support Vector Machine, dan Naïve Bayes.&#13;
Penelitian ini bertujuan untuk merancang dan menguji pemodelan Stacking Ensemble dengan menerapkan algoritma optimasi Artificial Bee Colony dan Cuckoo Search pada empat model dasar, yaitu Decision Tree, k-Nearest Neighbor, Support Vector Machine, dan Naïve Bayes. Setiap model dasar memiliki fungsi hiperparameter (hyperparameter tuning) masing-masing. Peran algoritma Artificial Bee Colony dan Cuckoo Search dalam penelitian ini adalah mengoptimalkan hyperparameter dari setiap model dasar guna memaksimalkan kinerja prediksi, yang selanjutnya digabungkan ke dalam model Stacking Ensemble. Penerapan algoritma optimasi dalam penelitian ini dibagi ke dalam tiga skema pemodelan yang dilakukan secara berurutan. Skema pertama merupakan penerapan model Stacking Ensemble tanpa optimasi, skema kedua merupakan penerapan model Stacking Ensemble dengan optimasi Artificial Bee Colony, dan skema ketiga merupakan penerapan model Stacking Ensemble dengan optimasi Cuckoo Search. Ketiga skema tersebut selanjutnya dibandingkan untuk menentukan skema pemodelan terbaik berdasarkan hasil kinerjanya pada setiap dataset yang digunakan.&#13;
Penelitian ini memanfaatkan kombinasi data acuan dan data empiris dalam penerapan ketiga skema pemodelan. Data acuan merupakan kumpulan dataset yang telah tersedia dan digunakan pada penelitian-penelitian sebelumnya, yang terdiri atas enam dataset antara lain Australian, Breast Cancer Winconsin, Cleaveland Heart Disease, Ionosphere, German Credit Fraud, dan Missing Migrants. Alur pemodelan pada setiap skema diawali dengan tahap pre-processing dan pembersihan data sebelum dilakukan pemodelan, yang meliputi pengecekan data hilang dan visualisasi data untuk memperoleh informasi awal dari masing-masing dataset yang digunakan. Setiap dataset dalam penelitian ini diterapkan pada ketiga skema pemodelan, kemudian dibandingkan berdasarkan nilai accuracy, balanced accuracy dan ¬F1-Score serta visualisasi sebaran kinerjanya berdasarkan sepuluh kali perulangan dengan Boxplot. Prosedur yang dilakukan juga diuji pada dua dataset empiris, yaitu data klasifikasi kualitas produk edamame dari PT Mitra Tani Dua Tujuh, Kabupaten Jember (150 amatan), serta data klasifikasi curah hujan wilayah Bogor, Jawa Barat dari BMKG (366 amatan atau satu tahun pengamatan).&#13;
Hasil analisis secara keseluruhan menunjukkan bahwa skema Stacking dengan optimasi Artificial Bee Colony (ABC) cenderung menghasilkan kinerja yang paling stabil. Hal ini ditunjukkan oleh rentang interkuartil (IQR) dengan visualisasi boxplot yang lebih kecil serta nilai median yang relatif lebih tinggi dibandingkan skema pemodelan lainnya, yang mengindikasikan bahwa model tersebut memiliki tingkat robustness yang lebih baik terhadap variasi data antar perulangan. Namun demikian, pada dataset dengan karakteristik yang relatif homogen, ditemukan indikasi bahwa Decision Tree cenderung menghasilkan skor ketiga metrik accuracy, balanced accuracy, F1-Score yang sangat tinggi hingga mendekati sempurna (0,95–1,00). Kondisi ini mengindikasikan potensi bias model dan dapat memengaruhi validitas kinerja akhir pada skema Stacking, khususnya apabila model tersebut berkontribusi secara dominan dalam proses penggabungan prediksi. Berdasarkan pengujian statistik, hasil uji ANOVA pada sebagian besar dataset yang digunakan, yaitu Australian, Breast Cancer Wisconsin, Cleaveland Heart Disease, Ionosphere, dan Missing Migrants, menunjukkan bahwa tidak terdapat perbedaan kinerja yang signifikan antara model Stacking tanpa optimasi dan Stacking dengan optimasi metaheuristik Artificial Bee Colony dan Cuckoo Search, dengan nilai p &gt; 0,05. Pengecualian ditemukan pada dua kasus tertentu, yaitu pada dataset German Credit Fraud, dimana model Stacking tanpa optimasi menunjukkan kinerja yang secara signifikan lebih baik pada metrik balanced accuracy dengan nilai p &lt; 0,001 dan pada dataset Curah Hujan yang memperlihatkan perbedaan yang sangat signifikan pada metrik accuracy dengan nilai p &lt; 0,001, hal ini mengindikasikan adanya pengaruh skema pemodelan terhadap tingkat ketepatan klasifikasi.&#13;
Penelitian ini menyimpulkan bahwa pemodelan klasifikasi dengan skema kedua yaitu dengan menerapkan Algoritma Optimasi Artificial Bee Colony mampu membuat model Stacking secara konsisten lebih baik dan robust pada berbagai ulangan kondisi, hal ini tercermin dari penyempitan rentang interkuartil dan konsistensi nilai median pada berbagai metrik evaluasi. Namun, peningkatan kestabilan model tidak selalu diikuti oleh perbedaan kinerja yang signifikan secara statistik, yang mengindikasikan bahwa efektivitas optimasi sangat bergantung pada karakteristik dataset, khususnya homogenitas data, ukuran sampel, dan distribusi kelas target. Pada dataset dengan struktur relatif sederhana atau ketidakseimbangan kelas yang tidak ekstrem, kontribusi optimasi terhadap peningkatan kinerja cenderung terbatas. Oleh karena itu, penelitian ini menegaskan bahwa penerapan optimasi metaheuristik, seperti Artificial Bee Colony dan Cuckoo Search, tidak dapat digeneralisasi dan harus mempertimbangkan secara cermat praproses data, ketidakseimbangan kelas, serta pemilihan base model dalam Stacking Ensemble.; The utilization of machine learning methods has advanced rapidly in the current era, characterized by an increasing number of models used to address classification and prediction problems. This development has driven the emergence of ensemble learning methods, one of which is Stacking Ensemble, which combines several learning models to produce more accurate and optimal predictive performance. Based on previous research, the Stacking method has proven capable of reducing bias and increasing accuracy by considering the contribution of each model within it. Therefore, an optimization mechanism is required to obtain the best performance from each model used. This research aims to apply metaheuristic optimization algorithms to enhance predictive performance in the Stacking Ensemble method. The optimization algorithms utilized in this study are Artificial Bee Colony (ABC) and Cuckoo Search (CS), which are applied and compared in their performance for optimizing a Stacking Ensemble model consisting of base models: Decision Tree, k-Nearest Neighbor, Support Vector Machine, and Naïve Bayes.&#13;
Specifically, This research aims to design and test Stacking Ensemble modeling by applying the Artificial Bee Colony and Cuckoo Search optimization algorithms to the four base models. Each base model has its own specific hyperparameters. The role of the Artificial Bee Colony and Cuckoo Search algorithms in this study is to optimize the hyperparameters of each base model to maximize predictive performance, which is subsequently integrated into the Stacking Ensemble model. The application of optimization algorithms in this research is divided into three sequential modeling schemes. The first scheme is the implementation of the Stacking Ensemble model without optimization; the second scheme involves the Stacking Ensemble model with Artificial Bee Colony optimization; and the third scheme involves the Stacking Ensemble model with Cuckoo Search optimization. These three schemes are then compared to determine the best modeling approach based on performance results across each dataset used.&#13;
This study utilizes a combination of reference data and empirical data in the implementation of the three modeling schemes. The reference data consists of a collection of datasets available from and used in previous studies, comprising six datasets: Australian, Breast Cancer Wisconsin, Cleveland Heart Disease, Ionosphere, German Credit Fraud, and Missing Migrants. The modeling workflow for each scheme begins with a pre-processing and data cleaning stage before modeling, which includes checking for missing data and data visualization to obtain preliminary information from each dataset. Each dataset in this study is applied to all three modeling schemes and then compared based on accuracy, balanced accuracy, and F1-Score values, as well as the visualization of performance distribution based on ten iterations using Boxplots. The procedures were also tested on two empirical datasets: edamame product quality classification data from PT Mitra Tani Dua Tujuh, Jember Regency (150 observations), and rainfall classification data for the Bogor region, West Java, from the BMKG (366 observations or one year of monitoring).&#13;
The overall analysis results indicate that the Stacking scheme with Artificial Bee Colony (ABC) optimization tends to produce the most stable performance. This is demonstrated by a smaller interquartile range (IQR) in the boxplot visualizations and a relatively higher median value compared to other modeling schemes, indicating that the model possesses a better level of robustness against data variations across iterations. Nevertheless, in datasets with relatively homogeneous characteristics, indications were found that Decision Tree tends to produce very high scores across all three metrics—accuracy, balanced accuracy, and F1-Score—approaching perfection (0.95–1.00). This condition indicates potential model bias and may affect the validity of the final performance in the Stacking scheme, especially if the model contributes dominantly during the prediction aggregation process. Based on statistical testing, ANOVA results on most of the datasets used—namely Australian, Breast Cancer Wisconsin, Cleveland Heart Disease, Ionosphere, and Missing Migrants—show that there is no significant difference in performance between the Stacking model without optimization and Stacking with Artificial Bee Colony and Cuckoo Search metaheuristic optimization, with a p-value &gt; 0.05. Exceptions were found in two specific cases: the German Credit Fraud dataset, where the Stacking model without optimization showed significantly better performance on the balanced accuracy metric with a p-value &lt; 0.001, and the Rainfall dataset, which showed a highly significant difference in the accuracy metric with a p-value &lt; 0.001, indicating the influence of the modeling scheme on the level of classification accuracy.&#13;
This research concludes that classification modeling using the second scheme—by applying the Artificial Bee Colony optimization algorithm—is capable of making the Stacking model consistently better and more robust across various iteration conditions. This is reflected in the narrowing of the interquartile range and the consistency of median values across various evaluation metrics. However, the increase in model stability is not always followed by statistically significant differences in performance, indicating that the effectiveness of optimization depends heavily on dataset characteristics, particularly data homogeneity, sample size, and target class distribution. In datasets with relatively simple structures or non-extreme class imbalances, the contribution of optimization toward performance improvement tends to be limited. Therefore, this study emphasizes that the application of metaheuristic optimization, such as Artificial Bee Colony and Cuckoo Search, cannot be generalized and must carefully consider data preprocessing, class imbalance, and the selection of base models within the Stacking Ensemble.
</description>
<pubDate>Thu, 01 Jan 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://repository.ipb.ac.id/handle/123456789/172653</guid>
<dc:date>2026-01-01T00:00:00Z</dc:date>
</item>
<item>
<title>Integrasi Metode Knn Dan Svd Untuk Penanganan Missing Value Pada Data Curah Hujan</title>
<link>http://repository.ipb.ac.id/handle/123456789/172641</link>
<description>Integrasi Metode Knn Dan Svd Untuk Penanganan Missing Value Pada Data Curah Hujan
Jamaesa, Rizkian Agung
Dalam melaksanakan kebijakan lingkungan seperti penangulangan banjir, pengelolaan sumber daya air dan lainnya data curah hujan diperlukan. Hasil analisis menggunakan Data curah hujan yang ada di stasiun kurang akurat karena sering memiliki masalah missing value dikarenakan berbagai faktor diantaranya human error dan machine error. Penelitian ini bertujuan untuk mengatasi masalah missing value pada data curah hujan di jawa barat. Sampel pada penelitian ini adalah lima stasiun BMKG yang ada di jawa barat. Metode integrasi digunakan untuk mengatasi keterbatasan dari metode tunggal. Metode K-Nearest Neighbors (KNN) dan Singular value decomposition (SVD) dipilih pada dataset ini. Data dibagi menjadi data training dan testing dengan proporsi 95:5%, 90:10%, 80:20%, 70:30%, dan 64:40%. Berdasarkan hasil analisis data, metode integrasi KNN-SVD lebih baik dibandingkan metode KNN dan SVD tunggal. Hasil MAE dan RMSE pada proporsi 95:5% lebih kecil dibandingkan proporsi lainnya.  Metode integrasi KNN-SVD memberikan nilai MAE dan RMSE yang paling kecil berturut-turut 7,35 dan 13,22. Imputasi missing value menggunakan model integrasi KNN-SVD dengan metode weight linear combination memberikan hasil lebih baik dibandingkan model imputasi tunggal.; Rainfall data is essential to implement environmental policies such as flood mitigation and water resource management. The rainfall data used in this study were obtained from five BMKG observation stations in West Java. Using station-based data provides better analytical accuracy because the data are actual and directly measured. However, the analysis results may be affected by missing values caused by various factors, including human error and machine malfunction. This study aims to address the issue of missing values in rainfall data across West Java by applying an integrated method designed to overcome the limitations of single techniques such as K-Nearest Neighbors (KNN) and Singular Value Decomposition (SVD). The dataset was divided into training and testing subsets with proportions of 95:5%, 90:10%, 80:20%, 70:30%, and 64:40%. Based on the analysis results, the integrated KNN–SVD method outperformed both the standalone KNN and SVD methods. The Mean Absolute Error (MAE) and Root Mean Square Error (RMSE) for the 95:5% data split were smaller than those of other proportions, with the integrated KNN–SVD method achieving the lowest MAE and RMSE values of 7.35 and 13.22, respectively. The imputation of missing values using the integrated KNN–SVD model with the Weighted Linear Combination (WLC) approach provided better performance compared to single-model imputations.
</description>
<pubDate>Thu, 01 Jan 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://repository.ipb.ac.id/handle/123456789/172641</guid>
<dc:date>2026-01-01T00:00:00Z</dc:date>
</item>
</channel>
</rss>
