<?xml version="1.0" encoding="UTF-8"?><rdf:RDF xmlns="http://purl.org/rss/1.0/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/">
<channel rdf:about="http://repository.ipb.ac.id/handle/123456789/160870">
<title>MF - School of Data Science, Mathematic and Informatics</title>
<link>http://repository.ipb.ac.id/handle/123456789/160870</link>
<description>School of Data Science, Mathematic and Informatics</description>
<items>
<rdf:Seq>
<rdf:li rdf:resource="http://repository.ipb.ac.id/handle/123456789/173632"/>
<rdf:li rdf:resource="http://repository.ipb.ac.id/handle/123456789/173605"/>
<rdf:li rdf:resource="http://repository.ipb.ac.id/handle/123456789/173103"/>
<rdf:li rdf:resource="http://repository.ipb.ac.id/handle/123456789/172946"/>
</rdf:Seq>
</items>
<dc:date>2026-07-01T13:33:48Z</dc:date>
</channel>
<item rdf:about="http://repository.ipb.ac.id/handle/123456789/173632">
<title>Klasifikasi Kesehatan Kuda Berdasarkan Data Biometrik Menggunakan One-Dimensional Convolutional Neural Network dan Support Vector Machine</title>
<link>http://repository.ipb.ac.id/handle/123456789/173632</link>
<description>Klasifikasi Kesehatan Kuda Berdasarkan Data Biometrik Menggunakan One-Dimensional Convolutional Neural Network dan Support Vector Machine
KAPPUW, FRIDHOLIN YACOB
Kuda memiliki peran penting dalam kehidupan manusia, baik sebagai hewan kerja, transportasi, olahraga, rekreasi, dan pendukung kebutuhan biomedis melalui produksi plasma antiserum. Namun, kesehatan kuda perlu mendapat perhatian serius karena gangguan kesehatan dapat memengaruhi produktivitas, dan kelangsungan hidupnya. Salah satu gangguan yang sering ditemukan dan berisiko tinggi adalah kolik. Kolik dapat menyebabkan perubahan perilaku dan parameter fisiologis, seperti peningkatan detak jantung, perubahan laju respirasi, perubahan suhu tubuh, dan penurunan saturasi oksigen. Oleh karena itu, deteksi dini diperlukan untuk meminimalkan kematian pada kuda. Keterbatasan pengamatan manual mendorong pemanfaatan biosensor dan wearable sensor untuk memantau kondisi fisiologis kuda secara objektif, kontinu, dan berbasis data. Dalam penelitian ini, data biometrik dari Smart Halter versi 1.5 digunakan sebagai dasar klasifikasi kesehatan kuda secara otomatis.&#13;
Penelitian ini bertujuan membangun model klasifikasi kesehatan kuda berbasis data biometrik menggunakan One-Dimensional Convolutional Neural Network (1D-CNN) dan Support Vector Machine (SVM), serta mengevaluasi kinerjanya berdasarkan performa klasifikasi dan efisiensi waktu komputasi. Data diperoleh dari kuda di Biofarma Cisarua, Bandung dan Equestrian Park IPB University pada 7–8 September 2023, 14 November 2023, serta 16, 19, dan 21 Mei 2025. Data terdiri atas dua dataset dengan struktur fitur berbeda, yaitu dataset biometrik kuda 1 sebanyak 2340 baris dengan fitur detak jantung, suhu tubuh, dan saturasi oksigen berlabel sehat, dan dataset biometrik kuda 2 sebanyak 2009 baris dengan fitur detak jantung, suhu tubuh, dan laju respirasi berlabel sehat dan sakit. Untuk membentuk empat fitur masukan lengkap, yaitu detak jantung, suhu tubuh, saturasi oksigen, dan laju respirasi, dilakukan praproses berupa imputasi menggunakan Random Forest Regressor, penanganan outlier dengan Interquartile Range (IQR), serta normalisasi menggunakan Min-Max Normalization.&#13;
Pemodelan dilakukan menggunakan dua pendekatan, yaitu 1D-CNN dan SVM, yang keduanya dioptimasi menggunakan Particle Swarm Optimization (PSO). Model 1D-CNN digunakan karena data biometrik memiliki karakteristik satu dimensi dan berpotensi mengandung pola lokal antar fitur yang dapat dipelajari melalui operasi konvolusi. Sementara itu, SVM digunakan sebagai model pembanding karena memiliki kemampuan generalisasi yang baik pada permasalahan klasifikasi. Pada 1D-CNN, hyperparameter yang dioptimasi meliputi jumlah filter, ukuran kernel, jumlah dense layer, jumlah neuron, dropout rate, learning rate, batch size, dan jumlah epoch. Pada SVM, hyperparameter yang dioptimasi meliputi nilai C, gamma, jenis kernel, dan skema decision values. Evaluasi model dilakukan menggunakan accuracy, precision, recall, F1-Score, confusion matrix, precision-recall curve, ROC curve, serta waktu komputasi.&#13;
Hasil penelitian menunjukkan bahwa kedua model mampu melakukan klasifikasi kesehatan kuda dengan performa tinggi. Model 1D-CNN dengan PSO&#13;
memberikan hasil terbaik pada iterasi ke-100 dengan accuracy 98,14%, precision 92,55%, recall 98,68%, dan F1-Score 95,51%, menggunakan konfigurasi 32 filter, kernel size 3, 1 dense layer dengan 64 neuron, dropout rate 0,288, learning rate 0,00541, batch size 32, dan 62 epoch. Berdasarkan confusion matrix, model ini berhasil mengklasifikasikan 589 data kuda sehat dan 149 data kuda sakit dengan benar, dengan 12 false positive dan 2 false negative. Sementara itu, model SVM dengan PSO juga menunjukkan performa kompetitif dengan accuracy 97,87%, precision 92,45%, recall 97,35%, dan F1-Score 94,84%, menggunakan hyperparameter terbaik C = 10, gamma = 10, kernel RBF, dan skema decision value one-vs-rest (OVR). Model SVM berhasil mengklasifikasikan 589 data kuda sehat dan 147 data kuda sakit dengan benar, dengan 12 false positive dan 4 false negative. Secara keseluruhan, 1D-CNN lebih unggul terutama pada nilai recall, sehingga lebih relevan untuk kebutuhan deteksi dini kuda sakit.&#13;
Perbandingan kedua model menunjukkan adanya trade-off antara performa klasifikasi dan efisiensi komputasi. Model 1D-CNN dengan PSO memberikan performa terbaik secara keseluruhan, terutama karena memiliki recall tertinggi sehingga lebih mampu meminimalkan risiko kuda sakit yang tidak terdeteksi. Namun, model ini membutuhkan waktu komputasi yang lebih besar dan bervariasi, bahkan dapat mencapai beberapa jam hingga belasan jam pada iterasi tertentu. Sebaliknya, model SVM dengan PSO membutuhkan waktu komputasi yang lebih singkat, yaitu kurang dari satu jam hingga sedikit di atas satu jam, dengan performa yang tetap kompetitif.&#13;
Berdasarkan hasil tersebut, 1D-CNN dengan PSO dapat direkomendasikan apabila prioritas utama sistem adalah akurasi dan sensitivitas deteksi, khususnya untuk mengurangi kemungkinan kuda sakit tidak terdeteksi. Sementara itu, SVM dengan PSO dapat menjadi alternatif yang lebih efisien apabila sistem diterapkan pada lingkungan dengan keterbatasan sumber daya komputasi. Secara keseluruhan, penelitian ini menunjukkan bahwa data biometrik dari Smart Halter dapat dimanfaatkan untuk membangun model klasifikasi kesehatan kuda berbasis machine learning dan deep learning. Hasil penelitian ini diharapkan dapat menjadi dasar pengembangan sistem pemantauan kesehatan kuda secara otomatis, terutama untuk mendukung deteksi dini kondisi sakit atau gangguan kesehatan seperti kolik.; Horses play an important role in human life, including as working animals, means of transportation, animals for sports and recreation, and as biomedical resources through the production of plasma for antiserum production. However, horse health requires serious attention because health disorders may affect productivity and survival. One of the most common and high-risk health disorders in horses is colic. Colic may cause changes in behaviour and physiological parameters, such as increased heart rate, altered respiratory rate, changes in body temperature, and decreased oxygen saturation. Therefore, early detection is needed to minimize mortality in horses. The limitations of manual observation have encouraged the use of biosensors and wearable sensors to monitor horses’ physiological conditions objectively, continuously, and based on data. In this study, biometric data obtained from Smart Halter version 1.5 were used as the basis for automatic horse health classification.&#13;
This study aimed to develop a horse health classification model based on biometric data using One-Dimensional Convolutional Neural Network (1D-CNN) and Support Vector Machine (SVM), as well as to evaluate their performance based on classification results and computational efficiency. The data were obtained from horses at Biofarma Cisarua, Bandung, and Equestrian Park IPB University on 7–8 September 2023, 14 November 2023, and 16, 19, and 21 May 2025. The data consisted of two datasets with different feature structures. The first horse biometric dataset contained 2,340 rows with heart rate, body temperature, and oxygen saturation features, and was labelled as healthy. The second horse biometric dataset contained 2,009 rows with heart rate, body temperature, and respiratory rate features, and was labelled as healthy and sick. To construct four complete input features, namely heart rate, body temperature, oxygen saturation, and respiratory rate, preprocessing was performed through imputation using Random Forest Regressor, outlier handling using the Interquartile Range method, and normalization using Min-Max normalization.&#13;
Modelling was conducted using two approaches, namely 1D-CNN and SVM, both of which were optimized using Particle Swarm Optimization (PSO). The 1D-CNN model was used because biometric data have one-dimensional characteristics and may contain local patterns among features that can be learned through convolution operations. Meanwhile, SVM was used as a comparison model because it has good generalization ability in classification problems. In the 1D-CNN model, the optimized hyperparameters included the number of filters, kernel size, number of dense layers, number of neurons, dropout rate, learning rate, batch size, and number of epochs. In the SVM model, the optimized hyperparameters included C, gamma, kernel type, and decision value scheme. Model evaluation was conducted using accuracy, precision, recall, F1-Score, confusion matrix, precision-recall curve, ROC curve, and computational time.&#13;
The results showed that both models were able to classify horse health status with high performance. The PSO-optimized 1D-CNN model achieved the best&#13;
result at the 100th iteration, with an accuracy of 98.14%, precision of 92.55%, recall of 98.68%, and F1-Score of 95.51%. This result was obtained using a configuration of 32 filters, a kernel size of 3, one dense layer with 64 neurons, a dropout rate of 0.288, a learning rate of 0.00541, a batch size of 32, and 62 epochs. Based on the confusion matrix, this model correctly classified 589 healthy horse data and 149 sick horse data, with 12 false positives and 2 false negatives. Meanwhile, the PSO-optimized SVM model also showed competitive performance, with an accuracy of 97.87%, precision of 92.45%, recall of 97.35%, and F1-Score of 94.84%. The best hyperparameters for this model were C = 10, gamma = 10, RBF kernel, and one-vs-rest (OVR) decision value scheme. The SVM model correctly classified 589 healthy horse data and 147 sick horse data, with 12 false positives and 4 false negatives. Overall, 1D-CNN performed better, particularly in terms of recall, making it more relevant for the early detection of sick horses.&#13;
The comparison between the two models indicated a trade-off between classification performance and computational efficiency. The PSO-optimized 1D-CNN model provided the best overall performance, mainly because it achieved the highest recall, which made it more capable of minimizing the risk of sick horses being left undetected. However, this model required greater and more variable computational time, reaching several hours to more than ten hours in certain iterations. In contrast, the PSO-optimized SVM model required shorter computational time, ranging from less than one hour to slightly more than one hour, while still maintaining competitive performance.&#13;
Based on these results, the PSO-optimized 1D-CNN model can be recommended when the main priority of the system is classification accuracy and detection sensitivity, particularly to reduce the possibility of sick horses being misclassified as healthy. Meanwhile, the PSO-optimized SVM model can serve as a more efficient alternative when the system is implemented in an environment with limited computational resources. Overall, this study demonstrates that biometric data obtained from Smart Halter can be used to develop horse health classification models based on machine learning and deep learning. The findings of this study are expected to serve as a foundation for the development of an automatic horse health monitoring system, particularly to support the early detection of illness or health disorders such as colic.
</description>
<dc:date>2026-01-01T00:00:00Z</dc:date>
</item>
<item rdf:about="http://repository.ipb.ac.id/handle/123456789/173605">
<title>MODEL COMBINATORIAL BASE LEARNER STACKING DENGAN OPTIMASI MODIFIED CUCKOO SEARCH UNTUK KLASIFIKASI MULTICLASS SPEKTRUM FTIR KEJI BELING</title>
<link>http://repository.ipb.ac.id/handle/123456789/173605</link>
<description>MODEL COMBINATORIAL BASE LEARNER STACKING DENGAN OPTIMASI MODIFIED CUCKOO SEARCH UNTUK KLASIFIKASI MULTICLASS SPEKTRUM FTIR KEJI BELING
Putra, I Gusti Ngurah Sentana
Spektroskopi Fourier Transform Infrared (FTIR) merupakan teknik analisis kimia yang mampu mengkarakterisasi komposisi molekuler sampel secara cepat dan tidak destruktif, sehingga banyak digunakan alam bidang farmasi, pangan, dan biologi. Salah satu tantangan utama dalam analisis data FTIR terletak pada karakteristiknya yang berdimensi sangat tinggi (high dimensional), di mana jumlah variabel spektral (p) jauh melebihi jumlah sampel (n), sehingga menimbulkan risiko multikolinearitas, overfitting, dan penurunan akurasi prediksi. Tantangan ini semakin kompleks ketika klasifikasi yang dihadapi bersifat multiclass dengan distribusi sampel yang tidak seimbang, seperti pada kasus autentikasi tanaman Keji Beling (Strobilanthes crispus) yang rentan dicampur dengan Sirih Hutan (Piper aduncum) akibat kemiripan morfologi dan selisih nilai ekonomi keduanya. Pendekatan ensemble stacking dipandang berpotensi mengatasi keterbatasan model tunggal dalam menangani data berdimensi tinggi, namun pemilihan kombinasi base learner yang tidak optimal dapat menurunkan performa model secara signifikan. Selain itu, metode stacking konvensional juga menghadapi keterbatasan dalam&#13;
interpretasi kepentingan fitur akibat sifat black-box dari meta learner. Penelitian ini bertujuan untuk menganalisis pengaruh prapemrosesan data terhadap performa klasifikasi spektrum FTIR, membandingkan performa metode combinatorial base learner stacking yang dioptimasi dengan algoritma Modified Cuckoo Search (MOCS), serta mengidentifikasi gugus fungsi spektral yang membedakan Keji Beling dan Sirih Hutan. Data yang digunakan merupakan data spektrum FTIR-ATR dari 223 amatan yang terdiri atas lima kelas, yaitu 100% Keji Beling, 100% Sirih Hutan, serta campuran Sirih Hutan dengan proporsi 5%, 25%, dan 50%. Prapemrosesan dilakukan dengan empat skenario, yaitu Savitzky-Golay (SG), Standard normal variate (SNV), serta kombinasi keduanya (SNV+SG dan SG+SNV). Pendekatan combinatorial base learner stacking mengeksplorasi semua subset kombinasi dari empat base learner dengan dua pilihan meta learner, yaitu XGBoost dan regresi logistik. Optimasi hyperparameter dilakukan menggunakan algoritma MOCS yang memodifikasi Cuckoo Search standar melalui penerapan dynamic discovery probability dan fungsi objektif multi-objective. Evaluasi kinerja model dilakukan menggunakan empat metrik utama, yaitu akurasi, F1-score, Balanced Accuracy (BA), dan G-mean. Uji ANOVA empat faktor diterapkan untuk menilai pengaruh prapemrosesan, jenis model, konfigurasi cuckoo, dan rasio pembagian data secara simultan beserta interaksinya. Uji lanjut Tukey HSD digunakan untuk mengidentifikasi perbedaan antarperlakuan secara lebih rinci. Validitas dan konsistensi interpretasi kepentingan fitur antara pendekatan base learner dan stacking feature importance aggregation dinilai menggunakan Intraclass Correlation Coefficient (ICC) dan Kendall’s Coefficient of Concordance (W).&#13;
Metode bagging dan boosting yang dioptimasi dengan MOCS menemukan bahwa prapemrosesan merupakan faktor penentu terhadap performa klasifikasi. Data tanpa prapemrosesan menghasilkan performa yang relatif rendah pada seluruh algoritma, dengan akurasi terbaik hanya mencapai 0,7548 pada LightGBM di skema 80:20, yang mengindikasikan bahwa variabilitas spektral akibat pergeseran&#13;
garis dasar dan noise belum teratasi. Sebaliknya, penerapan SNV dikombinasikan dengan SG menghasilkan peningkatan performa konsisten pada seluruh algoritma. Dalam perbandingan metode boosting dan bagging, Analisis komparatif antara MOCS dan Cuckoo Search standar (CSO) melalui uji ANOVA menunjukkan bahwa keduanya tidak berbeda signifikan pada seluruh metrik kinerja prediktif,&#13;
namun MOCS secara signifikan lebih efisien secara komputasi dengan penghematan waktu rata-rata sebesar 347 detik atau 47,56% dibandingkan CSO, sebuah perbaikan yang merepresentasikan prinsip Pareto improvement karena kualitas prediksi setara diperoleh dengan biaya komputasi yang jauh lebih rendah. Variasi konfigurasi jumlah nest (5, 15, dan 25) tidak memberikan pengaruh signifikan terhadap metrik kinerja pada seluruh skenario, menegaskan bahwa mekanisme pembaruan solusi berbasis Lévy flight pada algoritma CS bersifat independen terhadap ukuran populasi dalam rentang yang diuji.&#13;
Combinatorial base learner stacking menunjukkan bahwa pendekatan ini secara konsisten dan signifikan mengungguli seluruh base learner individu maupun stacking konvensional pada hampir semua kombinasi prapemrosesan dan rasio pembagian data. Peningkatan performa paling signifikan diperoleh ketika best combinatorial base learner stacking berbasis meta learner XGBoost dipadukan dengan prapemrosesan SNV+SG atau SG+SNV, menghasilkan akurasi hingga 0,9889 dan BA sebesar 0,9821 pada skema 80:20, dengan deviasi standar yang sangat rendah yang menandakan stabilitas model antar ulangan. Analisis kombinasi base learner menunjukkan bahwa penggunaan seluruh base learner sekaligus tidak selalu menghasilkan performa tertinggi, yang menegaskan bahwa kualitas dan&#13;
keberagaman antara model lebih menentukan performa dibandingkan jumlah model dalam ensemble. Hasil ANOVA empat faktor mengonfirmasi bahwa prapemrosesan dan jenis model merupakan faktor paling dominan terhadap seluruh metrik kinerja, interaksi keduanya signifikan, sementara konfigurasi cuckoo tidak berpengaruh signifikan terhadap metrik kinerja namun berpengaruh terhadap waktu komputasi. Pendekatan stacking feature importance aggregation yang menggabungkan nilai SHAP dari base learner dengan bobot koefisien meta learner&#13;
berhasil meningkatkan konsistensi kepentingan fitur secara signifikan, dengan ICC meningkat sebesar 26,4% dan Kendall’s W meningkat 7,7% dibandingkan pendekatan tanpa stacking, yang memperkuat validitas kimiawi interpretasi model. Dua wilayah bilangan gelombang paling kritis yang teridentifikasi sebagai spectral marker pembeda utama kedua tanaman adalah daerah aromatik (~1602–1606 cm?¹)&#13;
yang mencerminkan dominasi senyawa fenolik/flavonoid kompleks pada Keji Beling, dan daerah C–O/C–N (~1223–1225 cm?¹) yang berkaitan dengan sidik jari alkaloid aromatik pada Sirih Hutan, sehingga gugus fungsi pada kedua wilayah tersebut dapat ditetapkan sebagai penanda spektral yang andal untuk keperluan autentikasi berbasis FTIR.
</description>
<dc:date>2026-01-01T00:00:00Z</dc:date>
</item>
<item rdf:about="http://repository.ipb.ac.id/handle/123456789/173103">
<title>Klasifikasi Halaman Web Berbasis Machine Learning untuk Optimasi SEO Menggunakan Fitur Numerik dan Semantik Berbasis IndoBERT</title>
<link>http://repository.ipb.ac.id/handle/123456789/173103</link>
<description>Klasifikasi Halaman Web Berbasis Machine Learning untuk Optimasi SEO Menggunakan Fitur Numerik dan Semantik Berbasis IndoBERT
Nuradilla, Siti
Meningkatnya volume data teks telah memperkuat kebutuhan akan metode yang efektif untuk mengekstraksi informasi yang bermakna, khususnya pada search engine optimization (SEO). Pada proses optimasi SEO, ekstraksi makna semantik menjadi krusial karena relevansi halaman tidak hanya dipengaruhi oleh panjang karakter komponen on-page, namun juga koherensi antar komponennya, meliputi title, meta description, H1, dan address. Namun, evaluasi SEO masih dilakukan secara manual, sehingga kurang efisien dan rentan terhadap bias subjektif. Penelitian sebelumnya hanya berfokus pada indikator permukaan seperti kepadatan kata kunci dan bergantung pada dataset empiris, sehingga belum menjamin keandalan model pada kondisi data yang berbeda. Oleh karena itu, diperlukan pembangkitan data sintetis yang dapat merepresentasikan beragam skenario distribusi data, sehingga ketahanan dan konsistensi performa model dapat diuji secara lebih komprehensif.&#13;
Untuk mengatasi keterbatasan tersebut, penelitian ini bertujuan untuk mengevaluasi kemampuan model GPT yang di-fine-tune dalam membangkitkan data sintetis yang merepresentasikan karakteristik SEO on-page. Selanjutnya, penelitian ini juga menganalisis karakteristik model klasifikasi halaman web dengan memanfaatkan fitur numerik berupa panjang karakter komponen SEO on-page, serta fitur semantik berupa tingkat koherensi antar komponen yang diperoleh melalui proses embedding menggunakan IndoBERT. Koherensi semantik diukur menggunakan cosine similarity antar komponen SEO on-page untuk merepresentasikan keselarasan konteks antar komponen. Berdasarkan fitur tersebut, halaman web diklasifikasikan menjadi SEO-friendly dan non-SEO-friendly menggunakan Random Forest, XGBoost, LightGBM, dan TabNet. Penelitian menggunakan delapan dataset, terdiri atas satu dataset empiris berisi 10.791 halaman web dan tujuh dataset sintetis dengan variasi tingkat koherensi (20%–80%). Data empiris dikumpulkan menggunakan Screaming Frog SEO Spider untuk memperoleh komponen SEO on-page seperti title, meta description, address, dan heading, sedangkan Semrush digunakan untuk memperoleh data peringkat halaman pada SERP yang dimanfaatkan dalam proses pelabelan kelas SEO-friendly dan non-SEO-friendly. Proses penelitian meliputi prapemrosesan, representasi teks, penghitungan koherensi, serta pelatihan dan evaluasi model, sementara kualitas data sintetis dievaluasi menggunakan metrik diversity, novelty, dan duplication.&#13;
Hasil eksplorasi menunjukkan bahwa halaman SEO-friendly memiliki pola yang lebih konsisten dalam panjang teks dan koherensi semantik dibandingkan halaman non-SEO-friendly. Selain itu, model GPT mampu menghasilkan data sintetis dengan kualitas yang baik, ditunjukkan oleh nilai diversity yang tinggi (0,9–1), novelty pada rentang 0,7–0,85, serta tingkat duplikasi yang sangat rendah (&lt;0,06%). Temuan ini menunjukkan bahwa data sintetis yang dihasilkan mampu merepresentasikan variasi kondisi data dan mendukung proses klasifikasi dengan lebih komprehensif.&#13;
Pada tahap pemodelan, dilakukan perbandingan antara Random Forest, XGBoost, LightGBM, dan TabNet pada data empiris dan data sintetis. Pada data sintetis, performa model menunjukkan pola yang berbeda pada setiap tingkat koherensi. XGBoost dan LightGBM cenderung lebih kompetitif pada koherensi rendah hingga menengah, sedangkan TabNet mulai menunjukkan performa yang lebih tinggi pada koherensi tinggi. Pada data empiris, Random Forest memperoleh performa yang tinggi dengan balanced accuracy sebesar 0,8677, diikuti oleh XGBoost (0,8654) dan LightGBM (0,8605). Temuan ini sejalan dengan kajian awal (baseline) yang menunjukkan bahwa Random Forest sangat efektif dalam menangkap pola dominan pada distribusi data nyata yang relatif stabil. Namun, Random Forest cenderung mengalami penurunan performa pada struktur semantik antar kelas yang kurang tegas. Sebaliknya, model boosting yaitu XGBoost dan LightGBM menunjukkan performa yang lebih konsisten di berbagai tingkat koherensi, dengan nilai balanced accuracy yang kompetitif serta variasi performa yang relatif kecil. Performa terbaik secara umum dicapai pada skenario koherensi menengah (40%), di mana perbedaan karakteristik antar kelas menjadi lebih jelas. Sementara itu, pada koherensi rendah (20%–30%) dan tinggi (70%–80%), performa model cenderung menurun akibat meningkatnya ambiguitas atau homogenitas distribusi data. &#13;
Hasil uji statistik menunjukkan bahwa performa klasifikasi berbeda pada setiap tingkat koherensi dan bergantung pada jenis model yang digunakan. Uji lanjut perbandingan nilai tengah berganda dengan penyesuaian Holm memperlihatkan bahwa keunggulan model bersifat kontekstual, di mana Random Forest unggul pada data empiris, XGBoost dan LightGBM menunjukkan performa yang kompetitif pada koherensi rendah hingga menengah, sedangkan TabNet unggul pada koherensi tinggi. Dalam konteks implementasi sistem evaluasi SEO otomatis pada lingkungan data yang dinamis, model berbasis boosting, khususnya XGBoost, menunjukkan performa yang relatif stabil baik pada data empiris maupun berbagai tingkat koherensi data sintetis. Temuan ini menunjukkan bahwa model berbasis boosting memiliki potensi yang baik untuk digunakan pada kondisi data SEO on-page yang bervariasi.; The increasing volume of textual data has strengthened the need for effective methods to extract meaningful information, particularly in the context of search engine optimization (SEO). In SEO optimization, semantic information extraction is crucial because page relevance is influenced not only by the character length of on-page components, but also by the coherence among components, including title, meta description, H1, and address. However, SEO evaluation is still commonly performed manually, making it less efficient and prone to subjective bias. Previous studies have primarily focused on surface-level indicators such as keyword density and relied heavily on empirical datasets, which limits the reliability of models under varying data conditions. Therefore, synthetic data generation is required to represent diverse data distribution scenarios, enabling a more comprehensive evaluation of model robustness and performance consistency.&#13;
To address these limitations, this study aims to evaluate the capability of a fine-tuned GPT model in generating synthetic data that represent the characteristics of SEO on-page components. Furthermore, this study analyzes the characteristics of web page classification models by utilizing numerical features in the form of character lengths of SEO on-page components, as well as semantic features represented by the coherence level among components obtained through an embedding process using IndoBERT. Semantic coherence is measured using cosine similarity among SEO on-page components to represent contextual alignment between components. Based on these features, web pages are classified into SEO-friendly and non-SEO-friendly categories using Random Forest, XGBoost, LightGBM, and TabNet.&#13;
This study utilizes eight datasets, consisting of one empirical dataset containing 10,791 web pages and seven synthetic datasets with varying coherence levels (20%–80%). The empirical data were collected using Screaming Frog SEO Spider to obtain SEO on-page components such as title, meta description, address, and heading, while Semrush was used to extract SERP ranking data utilized in the labeling process for SEO-friendly and non-SEO-friendly classes. The research process includes preprocessing, text representation, coherence calculation, as well as model training and evaluation, while the quality of synthetic data is evaluated using diversity, novelty, and duplication metrics.&#13;
Exploratory results indicate that SEO-friendly pages exhibit more consistent patterns in text length and semantic coherence compared to non-SEO-friendly pages. Additionally, the GPT model successfully generates high-quality synthetic data, as indicated by high diversity scores (0.9–1.0), novelty values ranging from 0.7 to 0.85, and extremely low duplication rates (&lt;0.06%). These findings suggest that the generated synthetic data effectively represent diverse data conditions and support more comprehensive classification experiments.&#13;
In the modeling stage, Random Forest, XGBoost, LightGBM, and TabNet were compared using both empirical and synthetic datasets. On synthetic datasets, model performance patterns varied across different coherence levels. XGBoost and LightGBM tended to perform more competitively at low to medium coherence levels, whereas TabNet achieved higher performance at high coherence levels. On the empirical dataset, Random Forest achieved a high balanced accuracy of 0.8677, followed by XGBoost (0.8654) and LightGBM (0.8605). These findings are consistent with the baseline analysis, which showed that Random Forest is highly effective in capturing dominant patterns within relatively stable real-world data distributions. However, Random Forest tended to experience performance degradation when semantic boundaries between classes became less distinct. In contrast, boosting-based models, namely XGBoost and LightGBM, demonstrated more consistent performance across various coherence levels, achieving competitive balanced accuracy values with relatively low performance variation. Overall, the best performance was generally observed at medium coherence levels (40%), where semantic relationships among classes became more distinguishable. Meanwhile, at low coherence levels (20%–30%) and high coherence levels (70%–80%), model performance tended to decline due to increasing ambiguity or homogeneity in data distributions.&#13;
Statistical analysis results showed that classification performance differed across coherence levels and depended on the type of model used. Holm-adjusted multiple comparison tests further revealed that model superiority was contextual, where Random Forest performed best on empirical data, XGBoost and LightGBM showed competitive performance at low to medium coherence levels, and TabNet achieved the best performance at high coherence levels. In the context of implementing automated SEO evaluation systems in dynamic data environments, boosting-based models, particularly XGBoost, demonstrated relatively stable performance across both empirical data and multiple synthetic coherence scenarios. These findings suggest that boosting-based models have strong potential for implementation in on-page SEO evaluation tasks involving diverse data characteristics.
</description>
<dc:date>2026-01-01T00:00:00Z</dc:date>
</item>
<item rdf:about="http://repository.ipb.ac.id/handle/123456789/172946">
<title>Model Klasifikasi Komoditas dan Estimasi Hari Setelah Tanam untuk Padi dan Tebu Menggunakan Machine Learning</title>
<link>http://repository.ipb.ac.id/handle/123456789/172946</link>
<description>Model Klasifikasi Komoditas dan Estimasi Hari Setelah Tanam untuk Padi dan Tebu Menggunakan Machine Learning
Hanum, Fatmi Aulia
Swasembada pangan merupakan kemampuan suatu wilayah dalam memenuhi kebutuhan pangan secara mandiri. Sektor pertanian merupakan penopang utama dari swasembada pangan. Walau demikian, sektor pertanian berpotensi mengalami penurunan kontribusi seiring peningkatan laju pertumbuhan populasi, degradasi lahan, dan perubahan iklim. Kemampuan adaptasi menjadi krusial dalam menghadapi perkembangan dan tantangan penurunan kontribusi pertanian. Salah satu tren penurunan kontribusi pernah terjadi di Provinsi Jawa Timur pada tahun 2019 hingga 2024. Provinsi Jawa Timur merupakan wilayah pertanian terluas di Indonesia, khususnya pada komoditas padi dan tebu. Akan tetapi, proses monitoring komoditas dan Hari Setelah Tanam (HST) di Provinsi Jawa Timur belum dilakukan menggunakan machine learning dan deep learning. Proses monitoring masih dilakukan berdasarkan survei oleh Penyuluh Pertanian Lapangan (PPL). Adaptasi proses monitoring dapat dilakukan dengan implementasi smart farming berbasiskan pertanian presisi dengan pendayagunaan remote sensing dan Artificial Intelligent (AI) untuk menghasilkan informasi yang tepat dan cepat. Penelitian ini bertujuan untuk pembuatan model klasifikasi komoditas dengan mengimplementasikan algoritma Random Forest (RF), Support Vector Machine (SVM), algoritma Extreme Gradient Boosting (XGBoost), serta Convolutional Neural Network (CNN). Hasil klasifikasi digunakan untuk estimasi HST menggunakan analisis phenology indeks vegetasi tanaman. Penelitian dilakukan dengan empat tahapan inti yaitu, pengumpulan dan seleksi data, eksplorasi dan praproses data, pemodelan, serta evaluasi. Data yang digunakan dalam klasifikasi komoditas yaitu data survei lapangan, administrasi wilayah, Sentinel 2A, Sentinel 1A, GLCM (Gray Level Co-occurrence Matrix), SRTM (Shuttle Radar Topography Mission), terrain, dan CHIRPS (Climate Hazards Center Infrared Precipitation). Pengolahan data citra dilakukan dalam satu proses stacking GEE. Data dibagi menjadi data latih dan data uji. Pencarian parameter model terbaik dilakukan dengan hyperparameter tuning. Pemodelan komoditas dilakukan dengan algoritma RF, SVM, XGBoost, dan CNN. Hasil pemodelan dievaluasi dengan akurasi, classification report dan confussion matrix. Proses estimasi HST dilakukan setelah pengklasifikasian komoditas dan deteksi masa tanam. Proses deteksi masa tanam dan estimasi HST dilakukan dengan identifikasi phenology. Identifikasi phenology dilakukan dengan membandingkan penggunaan Sentinel 1A, Sentinel 2A, dan gabungan Sentinel 1A dan Sentinel 2A. Akurasi estimasi HST dievaluasi dengan R2, RMSE, dan MAE. Hasil penelitian menunjukan proses klasifikasi komoditas terbaik diperoleh dari algoritma XGBoost, yang memiliki akurasi tertinggi sebesar 91% dengan recall 93% untuk tanaman padi dan 91% untuk tanaman tebu. Sementara estimasi HST terbaik diperoleh dengan menggunakan citra Sentinel 1A dengan akurasi 90% dengan rentang perbedaan hari berkisar 3 hingga 18 hari.; Food self sufficiency is the ability of a region to independently meet its food needs. The agricultural sector serves as the primary pillar of food self-sufficiency. Nevertheless, the sector has the potential to experience a decline in contribution due to increasing population growth, land degradation, and ongoing climate change. Adaptive capacity becomes crucial in addressing the evolving challenges associated with the declining contribution of agriculture. A declining trend in agricultural contribution was observed in East Java Province from 2019 to 2024. East Java Province is the largest agricultural region in Indonesia, particularly for rice and sugarcane commodities. However, the monitoring process for commodities and Days After Planting (HST) in East Java has not yet utilized machine learning and deep learning approaches. The monitoring process is still conducted through surveys by Agricultural Extension Workers (PPL). Adaptation of the monitoring process can be achieved through the implementation of smart farming based on precision agriculture by leveraging remote sensing and Artificial Intelligence (AI) to produce accurate and timely information. This study aims to develop a commodity classification model by implementing Random Forest (RF), Support Vector Machine (SVM), Extreme Gradient Boosting (XGBoost), and Convolutional Neural Network (CNN) algorithms. The classification results are then used to estimate HST through phenological analysis of vegetation indices. The study was conducted through four main stages: data collection and selection, data exploration and preprocessing, modeling, and evaluation. The data used for commodity classification included field survey data, administrative area data, Sentinel 2A, Sentinel 1A, GLCM (Gray Level Co-occurrence Matrix), SRTM (Shuttle Radar Topography Mission), terrain, and CHIRPS (Climate Hazards Center Infrared Precipitation). Image data processing was performed through a single stacking process in GEE. The dataset was divided into training and testing data. The search for the best model parameters was carried out using hyperparameter tuning. Commodity modeling was performed using RF, SVM, XGBoost, and CNN algorithms. The modeling results were evaluated by accuracy, classification report, and confusion matrix. The HST estimation process was carried out after commodity classification and planting season detection. The planting season detection and HST estimation were conducted through phenology identification. Phenology identification was performed by comparing Sentinel 1A, Sentinel 2A, and a combination of Sentinel 1A and Sentinel 2A. The  HST estimation was evaluated using R², RMSE, and MAE. The results showed that the best commodity classification performance was achieved by the XGBoost algorithm, which attained the highest accuracy of 91%, with recall values of 93% for rice and 91% for sugarcane. Meanwhile, the best HST estimation was obtained using Sentinel 1A imagery, with an accuracy of 90% and a day-difference range of 3 to 18 days.
</description>
<dc:date>2026-01-01T00:00:00Z</dc:date>
</item>
</rdf:RDF>
