Komparasi Kinerja Algoritma XGBoost, CatBoost, dan LightGBM dalam Klasifikasi Produktivitas Sawit Rakyat di Provinsi Riau
Date
2024Author
Arss, Muhammad Nachnoer Novatron Fitra
Afendi, Farit Mochamad
Sulvianti, Itasia Dina
Metadata
Show full item recordAbstract
Perkebunan sawit di Provinsi Riau memegang peran sentral dalam industri
perkebunan nasional. Faktor utama yang memengaruhi tingkat produktivitas sawit
yaitu perbedaan karakteristik iklim tiap wilayah dan variabilitas iklim. Studi ini
bertujuan membandingkan algoritma machine learning yaitu XGBoost, CatBoost,
dan LightGBM yang digunakan dalam pemodelan iklim untuk mengklasifikasikan
tingkat produktivitas sawit rakyat di Provinsi Riau. Data yang digunakan
merupakan data Statistik Perkebunan Indonesia 1990-2022 dan data iklim yang
didapatkan dari Climate Hazards Group Precipitation with Station (CHIRPS).
Pemodelan dievaluasi melalui tiga skenario partisi model terbaik hasil
hyperparameter tuning. Hasil penelitian model klasifikasi produktivitas sawit
rakyat di Provinsi Riau menunjukkan bahwa CatBoost memiliki AUC uji terbaik
yaitu sebesar 0,857 pada skenario partisi 75% data latih dan 25% data uji.
Kombinasi hyperparameter yang digunakan yaitu ntree = 100, learning rate = 0,03,
dan max-depth = 9. CatBoost juga menunjukkan konsistensi terbaik dalam
menghindari overfitting untuk tiap skenario yang diuji. LightGBM dan XGBoost
memiliki performa yang lebih rendah karena cukup sensitif terhadap data
berdimensi kecil dalam pelatihan. Hal ini menyebabkan inkonsistensi kinerja
algoritma ketika diterapkan pada proporsi data latih dan data uji yang berbeda. Oil palm plantations in Riau Province play a central role in the national
plantation industry. The main factors affecting oil palm productivity are the
differences in climate characteristics across regions and climate variability. This
study aims to compare the machine learning algorithms XGBoost, CatBoost, and
LightGBM, used in climate modeling to classify the productivity levels of
smallholder oil palm plantations in Riau Province. The data used includes
Indonesian Plantation Statistics from 1990 to 2022 and climate data from the
Climate Hazards Group Precipitation with Station (CHIRPS). The modeling was
evaluated through three partitioning scenarios of the best models resulting from
hyperparameter tuning. The results showed that CatBoost had the best test AUC of
0.857 in the scenario with 75% training data and 25% test data. The
hyperparameters used were ntree = 100, learning rate = 0.03, and max-depth = 9.
CatBoost also demonstrated the best consistency in avoiding overfitting across all
tested scenarios. LightGBM and XGBoost performed lower due to their sensitivity
to small-dimensional data during training, leading to inconsistent performance
when applied to different proportions of training and test data.
