Kajian Interaksi dan Tingkat Kepentingan Peubah Model Klasifikasi Pembelajaran Mesin pada Kejadian Rawan Pangan
Abstract
Klasifikasi merupakan suatu proses untuk menemukan sebuah model yang dapat membedakan antar kelas data, dengan tujuan model yang didapatkan berguna untuk memprediksi kelas yang belum diketahui dari objek pengamatan. Penggunaan pembelajaran mesin terarah (supervise machine learning) dalam analisis klasifikasi memiliki kelebihan salah satunya menghasilkan nilai evaluasi model yang tinggi. Namun demikian, secara umum model yang dihasilkan oleh pembelajaran mesin tidak mudah dinyatakan dalam bentuk pernyataan matematis sederhana. Kerumitan ini sering membuat model pembelajaran mesin disebut sebagai black box, yang selanjutnya memunculkan berbagai metodologi untuk mencoba memberikan interpretasi terhadap model tersebut. Metodologi interpretasi dapat dikategorikan dalam beberapa kelompok diantaranya identifikasi tingkat kepentingan peubah prediktor dalam model, dan identifikasi interaksi pola hubungan antara peubah prediktor.
Penelitian ini akan menggunakan Support Vector Machine (SVM) dan Extreme Gradient Boosting (XGBoost) sebagai pemodelan analisis klasifikasi pembelajaran mesin terarah dan Shapley Additive Explanation (SHAP) sebagai metode untuk menginterpretasikan model black box yang didapatkan. SVM adalah salah satu metode klasifikasi pembelajaran mesin terarah berbasis linear yang dikembangkan oleh Boser, Guyon, dan Vapnik pada tahun 1992. Ide SVM yaitu mencari hyperplane terbaik yang dapat memisahkan setiap kelas dengan baik. XGBoost merupakan salah satu metode ensemble yang dikembangkan berdasarkan gradient boosting dan pohon keputusan. Penelitian terdahulu telah membuktikan penggunaan model SVM dan XGBoost dapat menghasilkan nilai akurasi yang tinggi. Shapley Additive Explanation (SHAP) merupakan salah satu metode yang dapat dijadikan pilihan untuk menjelaskan model pembelajaran mesin terarah. SHAP dapat menghasilkan peubah penting dan peubah yang saling berinteraksi pada suatu model.
Data yang digunakan pada penelitian ini merupakan data kejadian rawan pangan. Berdasarkan hasil Survei Sosial Ekonomi Nasional (Susenas) yang dilakukan oleh BPS persentase rawan pangan di Indonesia belum terjadi penurunan yang signifikan. Maka dari itu kejadian rawan pangan masih menjadi hal penting yang harus diperhatikan. Dalam rangka mengatasi kendala materi, waktu dan komputasi saat mengolah data seluruh provinsi di Indonesia, maka penelitian ini akan menggunakan data pada dua daerah yang memiliki karakteristik yang berbeda sebagai perwakilan daerah untuk melihat faktor yang mencirikan kejadian rawan pangan, yaitu Provinsi Aceh dan Jawa Barat.
Tujuan penelitian ini adalah (i) mengkaji kinerja model klasifikasi SVM dan XGBoost pada kejadian rawan pangan Provinsi Aceh dan Jawa Barat, (ii) mengkaji peubah penting yang mengindikasikan kejadian rawan pangan pada Provinsi Aceh dan Jawa Barat menggunakan analisis peubah penting SHAP, (iii) mengkaji interaksi peubah pada kejadian rawan pangan di Provinsi Aceh dan Jawa Barat menggunakan analisis interaksi SHAP.
Berdasarkan nilai evaluasi model pada masing-masing provinsi memperlihatkan kinerja model XGBoost lebih baik dibandingkan model SVM. Interpretasi model XGBoost menggunakan SHAP menghasilkan urutan peubah penting penciri kejadian rawan pangan Provinsi Aceh yaitu luas lantai, jenis bahan bakar untuk memasak, tingkat pendidikan kepala rumah tangga, jenis dinding, sanitasi layak dan sumber air minum. Sementara itu, urutan peubah penting pada Provinsi Jawa Barat yaitu luas lantai, tingkat pendidikan kepala rumah tangga, asset tanah, sumber air minum, jumlah penabung, dan air minum layak.
Analisis interaksi SHAP menghasilakan lima nilai interaksi tertinggi Provinsi Aceh diantaranya, luas lantai dengan bahan bakar memasak, luas lantai dengan jenis dinding, luas lantai dengan pendidikan kepala rumah tangga, luas lantai dengan sumber air minum dan luas lantai dengan sanitasi layak. Sedangkan lima nilai interaksi SHAP tertinggi pada Provinsi Jawa Barat yaitu; luas lantai dengan asset tanah, luas lantai dengan sumber air minum, luas lantai dengan jumlah penabung, luas lantai dengan pendidikan kepala rumah tangga dan luas lantai dengan akses internet.