Algoritma Boruta-SHAP pada XGBoost dan Random Forest untuk Analisis Kejadian Rumah Tangga Rawan Pangan di Jawa Barat
Abstract
Machine learning yang digunakan untuk pemodelan big data sulit ditangani
menggunakan metode pembelajaran tradisional karena akan menghasilkan pembelajaran
tidak sesuai dan menyebabkan metode tidak berfungsi dengan baik. Namun adanya sifat
black box pada pemodelan machine learning membuat hasil pemodelan sulit dipahami
dan diinterpretasikan. Sehingga digunakan algoritma Shapley Additive Explanation
(SHAP) yang diusulkan oleh Lundberg, untuk menafsirkan black box pada machine
learning sebagai white box.
Menggunakan peubah yang tidak penting terhadap pemodelan, seringkali
memengaruhi waktu komputasi dan menyebabkan hasil prediksi kurang akurat. Feature
selection merupakan komponen penting dalam proses machine learning ketika peubah
yang tidak relevan dan tidak berkaitan dengan peubah respons tidak diikutsertakan dalam
pemodelan namun dalam prosesnya tetap menjaga akurasi. Boruta merupakan wrapping
feature selection yang mampu memilih peubah penting melalui penambahan peubah
bayangan dengan algoritma pengerjaan mirip dengan klasifikasi random forest.
Pengembangan dari metode Boruta adalah Boruta-SHAP yang menggabungkan antara
feature selection Boruta dengan nilai-nilai Shapley.
Kerawanan pangan adalah masalah serius, baik di dunia maupun di Indonesia.
Mengakhiri kelaparan dan mencapai ketahanan pangan dan gizi yang lebih baik masuk
pada tujuan kedua SDGs yang ditargetkan tercapai pada 2030. Organisasi Pangan dan
Organisasi Pertanian Perserikatan Bangsa-Bangsa melaporkan melalui The State of Food
Security and Nutrition in the World bahwa sekitar 750 juta orang (sekitar 9,7% dari
populasi dunia) terkena kerawanan pangan parah dan hampir 690 juta orang di dunia
(8,9% dari populasi dunia) diperkirakan kekurangan gizi pada tahun 2019 (Food and
Agriculture Organization, 2020). Indonesia berada di peringkat 65 dari 113 negara di
dunia, 12 di Asia Pasifik, dan 4 di Asia Tenggara berdasarkan skor ketahanan pangan
(Police Brief FAO 2006). Sementara prevalensi kerawanan pangan sedang atau berat di
Indonesia pada 2020 adalah 5,12%, turun dari 5,42% pada 2019.
Beberapa penelitian terkait rawan pangan antara lain penelitian dengan
menggunakan pemodelan ordinary forest dan regresi logistik ordinal, memperoleh bahwa
penerima Kartu Perlindungan Sosial (KPS), banyaknya anggota rumah tangga yang
memiliki rekening tabungan, persentase pengeluaran untuk makanan, pendidikan kepala
rumah tangga, dan penerima program beras miskin adalah peubah terpenting yang
memengaruhi kerawanan pangan (Irawan 2019). Cordero-Ahiman telah menganalisis
rawan pangan untuk melihat faktor-faktor yang menentukan kerawanan pangan rumah
tangga di daerah pedesaan Lembah Sungai Paute, Provinsi Azuay, Ekuador dan
menemukan bahwa faktor yang paling berpengaruh adalah ukuran rumah dan akses
informasi ketahanan pangan (2020).
Terkait berbagai permasalahan yang telah dipaparkan, maka penelitian ini bertujuan
untuk menganalisis kerawanan pangan rumah tangga di Provinsi Jawa Barat
menggunakan algoritma SHAP dan Boruta-SHAP dengan model random forest dan
XGBoost. Adanya ketidakpastian urutan peubah penting dari skor SHAP dan Boruta SHAP dari model akan dianalisis menggunakan boxplot yang dibangun menggunakan
data berbeda bentukan algoritma bootstrap. Model random forest dan XGBoost cocok
dengan data yang akan digunakan; data memuat banyak peubah, berukuran besar (big
data), dan dapat diterapkan pada algoritma Boruta-SHAP.
Boruta-SHAP akan menentukan subsampel terkecil pada setiap iterasi dengan
membandingkan distribusi yang dihasilkan oleh skor SHAP dari model random forest
dan XGBoost. Algoritma metode ini dimulai dengan membuat peubah bayangan dan
memberi peringkat peubah menggunakan skor SHAP untuk tiap-tiap model random
forest dan XGBoost. Selanjutnya, seleksi peubah dilakukan dengan menghilangkan
peubah yang memiliki skor kepentingan lebih rendah dari ambang batas yang telah
ditentukan. Peubah-peubah yang telah dipilih sebagai peubah penting kemudian
digunakan untuk pemodelan XGBoost dan dilihat kontribusinya melalui skor SHAP yang
dihasilkan.
Hasil penelitian menyimpulkan, kinerja yang dihasilkan dari model tanpa seleksi
peubah maupun dengan Boruta-SHAP menghasilkan kesimpulan yang sama. Selanjutnya
berdasarkan hasil boxplot data bootstrap, model XGBoost tanpa seleksi peubah, XGBoost
dengan Boruta-SHAP, random forest tanpa seleksi peubah, dan random forest dengan
Boruta-SHAP menghasilkan sembilan peubah penting yang sama dari keempat model.
Penelitian ini menyimpulkan, sembilan peubah penting yang memengaruhi kejadian
rawan pangan adalah kepemilikan aset tanah, luas lantai rumah, pendidikan kepala rumah
tangga, banyaknya penabung, air minum layak, akses internet, sumber air minum, jenis
lantai, dan sanitasi layak.