Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/115501
Title: Random Forest dan Gradient Boosting Machine untuk Pemetaan Lokasi Banjir DKI Jakarta dengan Copernicus Sentinel-1A Data
Other Titles: Random Forest and Gradient Boosting Machine for Mapping Flood Locations in DKI Jakarta with Copernicus Sentinel-1A Data
Authors: Soleh, Agus Mohamad
Djuraidah, Anik
Barus, Baba
Nurussadad, Abdul Aziz
Issue Date: 12-Dec-2022
Publisher: IPB University
Abstract: Indonesia banyak mengalami kejadian bencana. Salah satunya adalah banjir yang terjadi di DKI Jakarta, 1 Januari 2020. Beberapa media massa menyebutkan banjir ini sebagai banjir terparah yang menimpa Jakarta. Pemerintah DKI Jakarta mencatat hal sebaliknya dengan data luas wilayah administrasi terdampak banjir. Perbedaan klaim tentang tingkat keparahan banjir memerlukan pendekatan luas banjir yang lebih akurat. Algoritma machine learning pada data citra satelit hasil penginderaan jauh memungkinkan pendekatan luas wilayah banjir secara lebih cepat dan akurat. Penelitian ini bertujuan untuk membandingkan kebaikan model algoritma Random Forest (RF) dan Gradient Boosting Machine (GBM) untuk melakukan prediksi wilayah banjir di DKI Jakarta sehingga dari hasilnya didapat prediksi luas wilayah DKI Jakarta yang terkena banjir. Prediksi dilakukan pada Copernicus Sentinel-1A Data di dua waktu yang berbeda (puncak musim kemarau dan setelah banjir). Setelah melakukan praproses citra, melalui pengamatan secara visual dilakukan pelabelan permukaan air dan permukaan non-air. Ekstraksi nilai dilakukan pada data citra menghasilkan polarisasi VH, VV, dan label. Label digunakan sebagai peubah target (y), sementara polarisasi VH, VV dan kombinasinya digunakan sebagai peubah prediktor pada algoritma RF dan GBM. Penyeimbangan data dan penggunaan data contoh sebesar 5% digunakan untuk mempercepat proses machine learning. Perbandingan dengan uji sidik ragam antara data contoh (5%) dan seluruh data seimbang (100%) mendapatkan nilai p-value antara 0,141 – 0,924 untuk berbagai kombinasi citra, algoritma dan ukuran kebaikan model. Perbandingan dengan uji sidik ragam antar kombinasi prediktor menunjukkan p-value 0,035 – 1,000. Perbandingan uji sidik ragam antar algoritma menghasilkan p-value antara <2 x 10-16 – 1,93 x 10-12. Fungsi paling sederhana dari berbagai kombinasi y = f(VH,VV) digunakan dengan algoritma GBM karena tidak ada perbedaan yang nyata antar kombinasi prediktor. Hasil prediksi permukaan air didapat 168.317 piksel pada puncak musim kemarau dan 451.760 piksel setelah banjir. Perbandingan antara kedua prediksi tersebut menghasilkan, 153.828 piksel permukaan air permanen dan 297.932 piksel atau setara 2.979,32 ha diduga sebagai wilayah banjir. Algoritma GBM menunjukkan hasil akurasi dan F1 yang lebih baik daripada algoritma RF. Kombinasi berbagai prediktor tidak menunjukkan hasil yang berbeda nyata pada algoritma GBM, namun menunjukkan perbedaan pada algoritma RF pada citra setelah banjir. Penggunaan data contoh (5%) tidak menunjukkan hasil yang berbeda dengan seluruh data seimbang (100%). Hasil verifikasi antara prediksi luas wilayah banjir dengan wilayah adminsitrasi kelurahan terdampak banjir menunjukkan hasil yang cukup akurat (75,68%).
Indonesia has experienced many disasters. One of them is the flood that occurred in DKI Jakarta, January 1st, 2020. Several mass media mentioned it as the worst flood to hit Jakarta. The DKI Jakarta government stated the opposite with data on the administrative areas affected by flooding. Different claims about flood severity require a more accurate approach to flood area. Machine learning algorithms on remote sensing satellite imagery data allow a faster and more accurate approach to the flood area. This study aims to compare the goodness of the Random Forest (RF) and Gradient Boosting Machine (GBM) algorithm models for predicting flood locations in DKI Jakarta so that the results can predict the area of DKI Jakarta affected by flooding. Predictions were made on Copernicus Sentinel-1A data at two different times (peak of the dry season and after the flood). After pre-processing the image, through visual observation labeling of the water surface and non-water surface is carried out. Value extraction is performed on image data to produce VH polarization, VV polarization, and label. The label is used as the target variable (y), while the polarization VH, VV and their combinations are used as predictor variables in the RF and GBM algorithms. Data balancing and 5% use of sample data are used to speed up the machine learning process. Comparison with analysis of variance between sample data (5%) and all balanced data (100%) obtains p-values between 0.141 – 0.924 for various combinations of images, algorithms and models' goodness-of-fit measures. Comparison with the analysis of variance between predictor combinations shows a p-value of 0.035 – 1.000. Comparison of analysis of variance between algorithms produces p-values between <2 x 10-16 – 1.93 x 10-12. The simplest function of various combinations y = f(VH,VV) is used with the GBM algorithm because there is no significant difference between predictor combinations. The water level prediction results obtained are 168,317 pixels at the peak of the dry season and 451,760 pixels after the flood. Comparison between the two predictions results in 153,828 pixels of permanent water surface and 297,932 pixels or the equivalent of 2,979.32 ha are suspected as flood areas. The GBM algorithm shows better accuracy and F1 results than the RF algorithm. The combination of various predictors did not show significantly different results in the GBM algorithm, but showed differences in the RF algorithm in the image after flooding. The use of sample data (5%) does not show different results from all balanced data (100%). The results of the verification between the predicted area of the flood area and the administrative area of the flood-affected show quite accurate results (75.68%).
URI: http://repository.ipb.ac.id/handle/123456789/115501
Appears in Collections:MT - Mathematics and Natural Science

Files in This Item:
File Description SizeFormat 
202201205-Tesis-Abdul Aziz Nurussadad-G1501201016-signed-signed-IPB_1.pdf
  Restricted Access
Abstrak4.59 MBAdobe PDFView/Open
202201205-Tesis-Abdul Aziz Nurussadad-G1501201016-signed-signed-IPB.pdf
  Restricted Access
Full Text6.94 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.