Pembangunan Model Prediksi Potensi Karhutla Menggunakan Algoritma Machine Learning Berdasarkan Data Patroli
Date
2024Author
SANTOSO, ANGGA BAYU
Sitanggang, Imas Sukaesih
Hardhienata, Medria Kusuma Dewi
Metadata
Show full item recordAbstract
Indonesia mempunyai luas hutan sebesar 120 juta hektar atau 64% dari luas daratannya. Meski demikian, faktanya hutan Indonesia terus mengalami deforestasi. Angka laju deforetasi Indonesia tertinggi terjadi tahun 2018-2019 (844,72 ha/tahun). Sekitar 57% deforestasi Indonesia diakibatkan oleh perubahan penutupan hutan. Salah satu faktornya adalah terjadinya kebakaran hutan dan lahan (karhutla). Upaya pengendalian karhutla dilakukan dengan pembangunan Sistem Informasi Patroli Pencegahan (SIPP) Karhutla untuk patroli terpadu. Namun, data patroli hanya digunakan untuk observasi dan analisis spasial sederhana dalam modul spasial. Data patroli belum digunakan untuk analisis pencegahan karhutla lebih lanjut.
Sebagai langkah mengatasi permasalahan tersebut, penelitian ini bertujuan membangun model prediksi potensi karhutla menggunakan algoritma SVM, Random Forest dan XGBoost berdasarkan data patroli. Kemudian dilakukan perbandingan kinerja model prediksi SVM, Random Forest dan XGBoost dalam prediksi potensi karhutla untuk mendapatkan model prediksi terbaik.
Tahapan penelitian dimulai dengan pengumpulan data dan eksplorasi data. Praproses data terdiri dari identifikasi dan penanganan outlier serta missing value, transformasi data dan penanganan ketidakseimbangan kelas data. Kemudian dilakukan tahapan pembagian data dan k-fold cross validation. Pembangunan model prediksi menggunakan algoritma SVM, Random Forest dan XGBoost. Setelah itu, dilakukan hyperparameter tuning, pengujian model dan evaluasi model. Tahap akhir yaitu perbandingan model dan visualisasi hasil prediksi model terbaik.
Penelitian ini berhasil membangun model prediksi potensi karhutla menggunakan algoritma SVM, Random Forest, dan XGBoost berdasarkan data patroli SIPP karhutla. Model prediksi dibangun melalui tahap praproses data menggunakan metode Synthetic Minority Oversampling Technique and Edited Nearest Neighbor (SMOTE-ENN) yang berhasil menangani ketidakseimbangan kelas data. Kemudian, metode Random Search berhasil mendapatkan kombinasi hyperparameter terbaik untuk optimasi model prediksi.
Performa model prediksi dilihat dari akurasi setelah optimasi model, yaitu SVM-linier (79,65%), SVM-polynomial (76,82%), SVM-rbf (76,75%), SVM- sigmoid (33,82%), Random Forest (94,95%) dan model XGBoost (95,55%). Oleh karena itu, model prediksi terbaik adalah XGBoost (95,55%) untuk prediksi potensi karhutla di Sumatera dan Kalimantan. Model XGBoost dapat mengungguli model prediksi lainnya karena penggunaan teknik boosting yang meningkatkan performa model dengan cara mengurangi selisih antara data aktual dan hasil prediksi. Hasil analisis korelasi menunjukkan variabel prediktor dengan korelasi tertinggi terhadap hasil prediksi pada model XGBoost adalah kondisi vegetasi kering, dengan tingkat korelasi (10,69%). Selain itu, faktor iklim dan lingkungan juga mempengaruhi hasil prediksi penelitian ini, sehingga hasilnya dapat berbeda di wilayah yang berbeda. Indonesia has a forest area of 120 million hectares, or 64% of its land area. However, the fact is that Indonesia's forests continue to experience deforestation. Indonesia's highest deforestation rate occurred in 2018-2019 (844.72 ha/year). Around 57% of Indonesia's deforestation was caused by changes in forest cover. One of the factors is the occurrence of forest and land fires (karhutla). Efforts to control forest and land fires are carried out with the development of the Karhutla Prevention Patrol Information System (SIPP) for integrated patrols. However, patrol data is only used for observation and simple spatial analysis in the spatial module. Patrol data has yet to be used for further study of forest and land fire prevention. To overcome these problems, this research aims to build a prediction model of forest and land fire potential using SVM, Random Forest, and XGBoost algorithms based on patrol data. Then, the performance of SVM, Random Forest, and XGBoost prediction models are compared to get the best model.
The research phase began with data collection and exploration. Data preprocessing consists of identifying and handling outliers and missing values, data transformation, and data class imbalance. Then, the data division and k-fold cross- validation stages are carried out. Prediction model building uses SVM, Random Forest, and XGBoost algorithms. After that, hyperparameter tuning, model testing, and model evaluation are performed. The final stage is a model comparison and visualization of the best model prediction results.
This research successfully built a prediction model of forest and land fire potential using SVM, Random Forest, and XGBoost algorithms based on SIPP forest and land fire patrol data. The prediction model is built through a data preprocessing stage using the Synthetic Minority Oversampling Technique and Edited Nearest Neighbor (SMOTE-ENN) method, which successfully handles data class imbalance. Then, the Random Search method successfully obtained the best combination of hyperparameters for prediction model optimization.
The prediction model performance is seen from the accuracy after model optimisation, namely SVM-linear (79.65%), SVM-polynomial (76.82%), SVM-rbf (76.75%), SVM-sigmoid (33.82%), Random Forest (94.95%) and XGBoost model (95.55%). Therefore, the best prediction model is XGBoost (95.55%) for predicting potential forest and land fires in Sumatra and Kalimantan. The XGBoost model can outperform other prediction models due to the use of boosting techniques that improve model performance by reducing the difference between actual data and prediction results. The correlation analysis results show that the predictor variable with the highest correlation to the prediction results in the XGBoost model is dry vegetation conditions, with a correlation level of (10.69%). Furthermore, climate and environmental factors affect this study's prediction results, so that the results can differ in different regions.