Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/145831
Title: Perbandingan Kinerja XGBoost dan CatBoost pada Model Regresi Terdistribusi Lag dalam Meramalkan Produktivitas Kelapa Sawit
Authors: Saefuddin, Asep
Oktarina, Sachnaz Desta
Rahman, Nafisa Azzahra Nur
Issue Date: 2024
Publisher: IPB University
Abstract: Penanganan peubah kategorik merupakan langkah penting dalam pengolahan data yang biasanya dilakukan pada saat pre-processing. Salah satu metode gradient boosting, yaitu Extreme Gradient Boosting (XGBoost), menangani data kategorikal dengan menggunakan one-hot-encoding. Pengkodean peubah kategorik dilakukan dengan cara mengubah setiap nilai kategorik menjadi vektor biner yang panjangnya sama dengan jumlah kategori yang unik. Setiap kategori direpresentasikan secara unik oleh satu vektor biner yaitu 1 pada indeks yang sesuai dengan nilai kategori dan 0 pada indeks lainnya. Di sisi lain, teknik ini menjadi tidak praktis karena dapat menghasilkan fitur yang sangat besar sehingga memengaruhi kinerja dan efisiensi komputasi model. Categorical Boosting (CatBoost) dikembangkan untuk mengatasi kekurangan tersebut. Catboost diduga lebih efisien karena penanganan peubah kategorik dilakukan pada saat pelatihan (training), bukan pada saat pre-processing. Selain itu, dalam menangani peubah kategorik CatBoost tidak membentuk peubah baru melainkan terjadi proses numerisasi berdasarkan proses pembobotan. Penerapan dan evaluasi kinerja CatBoost telah dilakukan dalam berbagai penelitian dengan menggunakan data empiris. Penelitian ini menggunakan pendekatan baru dengan data simulasi yang diperoleh dari hasil pembangkitan data. Data simulasi dibentuk berdasarkan 12 skenario yang melibatkan persentase peubah numerik dengan kategorik, kardinalitas peubah kategorik, dan proporsi level peubah kategorik. Pembangkitan data masing-masing skenario akan menghasilkan 100 dataset yang akan digunakan untuk mempelajari kinerja CatBoost. Evaluasi kinerja model dilakukan dengan membandingkan tiga metrik evaluasi model (RMSE, MAE, dan MAPE) antara model CatBoost dengan XGBoost. Model CatBoost dan XGBoost juga diterapkan pada data empiris berupa data Produktivitas Tandan Buah Segar (TBS) kelapa sawit di bulan Januari 2020 hingga Juni 2023. Unit amatan terkecil yang digunakan dalam penelitian ini adalah blok. Total blok yang diamati sebanyak 1776 blok dengan total luas lahan sebesar 51.943,37 ha. Data empiris ini dipilih karena faktor-faktor yang memengaruhi produktivitas TBS kelapa sawit memiliki jenis data yang beragam, baik numerik maupun kategorik. Total peubah prediktor awal yang digunakan ada sebanyak 20 peubah yang terdiri dari 14 peubah numerik dan 6 peubah kategorik. Penambahan peubah lag juga dilakukan karena beberapa peubah prediktor memiliki dampak yang tak langsung pada produksi TBS kelapa sawit. Peubah-peubah tersebut diantaranya jumlah hari hujan (HH/bulan), curah hujan (mm/hari), lama penyinaran (jam/hari), Suhu (oC), Pupuk NPK (kg/pokok/ha/tahun), pupuk urea (kg/pokok/ha/tahun), pupuk MOP (kg/pokok/ha/tahun), pupuk HGFB (kg/pokok/ha/tahun), pupuk CuSO4 (kg/pokok/ha/tahun), dan pupuk Dolomite (kg/pokok/ha/tahun). Tujuan akhir dari data empiris ini adalah melihat kontribusi peubah prediktor terhadap produktivitas TBS kelapa sawit serta peramalan produktivitas TBS kelapa sawit. Peramalan produktivitas ini dilakukan agar pelaku usaha perkebunan kelapa sawit dapat merencanakan pemeliharaan berkelanjutan, penggunaan pupuk yang optimal, dan pengelolaan alokasi sumber daya lainnya. Hasil studi simulasi menunjukkan bahwa 4 dari 12 skenario menyimpulkan bahwa CatBoost lebih unggul dibandingkan XGBoost. CatBoost cenderung lebih baik ketika peubah kategorik lebih banyak atau sama dengan peubah numerik pada kondisi peubah kategorik memiliki kardinalitas tinggi kecuali pada skenario 12. Ketika persentase peubah numerik dengan kategorik sama dan kondisi peubah kategorik memiliki kardinalitas tinggi serta proporsi level tidak seimbang, evaluasi kinerja model XGBoost lebih baik dibandingkan CatBoost. Kendati demikian, evaluasi kinerja kedua metode tidak berbeda signifikan, sehingga jika dilihat dari sudut pandang efisiensi CatBoost lebih direkomendasikan dibandingkan XGBoost. CatBoost memiliki waktu komputasi lebih cepat dengan selisih waktu komputasi 73 menit dengan model XGBoost. Pada data empiris, kedua metode tetap dibandingkan karena kondisi data empiris memiliki kemiripan dengan data frame simulasi pada kombinasi skenario 2 dan 4. Meskipun hasil evaluasi metrik menunjukkan bahwa model XGBoost lebih baik dibandingkan model CatBoost, namun uji hipotesis rata-rata menunjukkan bahwa perbedaan antara kedua model tersebut tidak signifikan secara statistik. Pengambilan keputusan dilanjutkan dengan mempertimbangkan efisiensi serta interpretabilitas kedua model. Pada penelitian ini, CatBoost dianggap lebih efisien serta dapat menangkap pengaruh pupuk NPK yang memiliki kontribusi lebih tinggi terhadap produktivitas TBS kelapa sawit dibandingkan model XGBoost. Oleh karena itu peramalan produktivitas TBS kelapa sawit dilakukan dengan menggunakan model CatBoost. Hasil produktivitas yang diperoleh pada bulan Juli, Agustus, September, dan Oktober berturut-turut adalah 1,67 ton/ha, 1,72 ton/ha, 1,69 ton/ha, dan 1,57 ton/ha. Hasil peramalan ini diperoleh dari 1664 blok atau sekitar 93,69% dari total 1776 blok. Enam peubah yang memiliki kontribusi paling tinggi terhadap produktivitas TBS kelapa sawit adalah blok, usia, suhu pada lag 12, suhu pada lag 11, penyinaran pada lag 11, dan pupuk NPK pada lag 12.
Description: penundaan unggah tesis di repository.ipb.ac.id. Hal ini dikarenakan naskah publikasi masih dalam proses submit pada salah satu jurnal internasional. Surat permohonan dikirimkan melalui email infopustaka@apps.ipb.ac.id
URI: http://repository.ipb.ac.id/handle/123456789/145831
Appears in Collections:MT - Mathematics and Natural Science

Files in This Item:
File Description SizeFormat 
Cover, Lembar Pernyataan, Abstrak, Lembar Pengesahan, Prakata dan Daftar Isi.pdf
  Restricted Access
Cover450.41 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.