Perbandingan Kinerja Rotation Double Random Forest Dengan Algoritma Ensemble Tree Lain Pada Klasifikasi Biner Data Tidak Seimbang (Kasus Kerawanan Pangan Rumah Tangga di Sulawesi Selatan)
Abstract
Decission tree merupakan salah satu algoritma pembelajaran mesin yang umum digunakan dalam kasus klasifikasi karena kesederhanaan dan kemudahan dalam interpretasi tetapi tetap memiliki kinerja yang powerfull. Namun, decision tree sangat sensitif pada gangguan keragaman data input sehingga model cenderung tidak stabil karena dugaan hanya didasarkan pada satu pohon keputusan. Hal tersebut berdampak pada varian model menjadi tinggi meskipun memiliki bias yang cukup rendah. Untuk mengatasi kelemahan tersebut, dapat digunakan ensemble-tree. Dugaan terhadap suatu data yang dihasilkan melalui pendekatan ensemble-tree diperoleh dari penggabungan seluruh dugaan yang dihasilkan oleh pohon-pohon yang dibentuk. Gabungan dugaan dari beberapa pohon tersebut cenderung akan meningkatkan kinerja model klasifikasi. Teknik ensemble-tree terbukti dapat menangani permasalahan klasifikasi dengan baik. Kekuatan teknik ensemble-tree terletak pada keberagaman dan independensi antar masing-masing pohon. Meningkatkan keragaman pohon keputusan akan menghasilkan korelasi yang kecil antar pohon sehingga dapat meningkatkan kinerja model. Berbagai penelitian mengusulkan pengembangan model berbasis ensemble-tree dengan membentuk algoritma yang menghasilkan pohon keputusan yang terbentuk secara independen satu sama lain dan memiliki masukan yang beragam. Diantaranya adalah random forest (RF), rotation forest (RoF), double random forest (DRF), dan yang terbaru adalah rotation double random forest (RoDRF). RoDRF melakukan rotasi atau mengubah data dengan tujuan menghasilkan keragaman yang lebih baik diantara base learner. RoDRF menerapkan konsep rotasi peubah pada pohon berdasarkan algoritma DRF. Rotasi atau transformasi acak pada subruang fitur yang berbeda menghasilkan proyeksi yang berbeda, sehingga menghasilkan kinerja generalisasi atau prediksi yang lebih baik. Penelitian sebelumnya belum secara spesifik menjelaskan karakteristik algoritma RoDRF pada gugus data dengan kelas peubah respon yang tidak seimbang. Sementara itu, kondisi data yang tidak seimbang dapat mengakibatkan model cenderung bias terhadap kelas mayoritas sehingga berdampak pada underfitting atau overfitting model. Beberapa kasus klasifikasi umumnya memiliki kondisi proporsi kelas peubah respon antara satu kelas dengan kelas lainnya yang tidak seimbang atau dikenal dengan istilah imbalanced class. Penanganan imbalaced pada data, terbukti dapat meningkatkan kinerja akurasi model. Pada penelitian ini, permasalahan data tidak seimbang akan ditangani dengan membandingkan dua metode yakni EasyEnsemble dan SMOTE.
Secara empiris, penerapan algoritma klasifikasi berbasis pohon keputusan dengan kondisi data tidak seimbang dapat dilakukan pada kasus kerawanan pangan rumah tangga. Beberapa penelitian terdahulu pada kasus kerawanan pangan telah melakukan pemodelan klasifikasi berbasis pohon keputusan dengan kinerja akurasi model yang baik. Kerawanan pangan (food insecurity) merupakan salah satu isu penting pada tujuan kedua pembangunan berkelanjutan yang berfokus pada penghapusan kelaparan (no hunger). Menurut data Badan Pusat Statistik terdapat sebanyak 4,85 persen rumah tangga yang mengalami kerawanan pangan sedang atau berat pada tahun 2022. Pada beberapa wilayah provinsi dengan sumber daya alam pangan yang melimpah diantaranya Provinsi Sulawesi Selatan, masih terdapat sebesar 3,78 persen rumah tangga di Provinsi Sulawesi Selatan yang mengalami kerawanan pangan sedang atau berat tahun 2022.
Penelitian ini bertujuan untuk mengkaji perbandingan kinerja algoritma rotation double random forest dengan random forest, rotation forest, dan double random forest pada data tidak seimbang. Selain itu, penelitian ini juga akan melihat pengaruh penyeimbangan data terhadap kinerja model dengan teknik SMOTE dan EasyEnsemble. Kajian akan dilakukan pada data simulasi serta diterapkan pada data empiris kasus kerawanan pangan rumah tangga di Sulawesi Selatan. Data simulasi dibangkitkan pada dua kajian. Kajian pertama menggunakan data simulasi dengan peubah penjelas numerik sedangkan kajian kedua menggunakan data simulasi dengan peubah penjelas kategorik. Pada setiap kajian, data simulasi akan dibangkitkan dengan kondisi proporsi kelas pada peubah respon yang tidak seimbang yaitu 20:80. Sebanyak 100 gugus data simulasi dibangkitkan pada masing-masing kajian untuk menguji validitas kinerja model. Pada kedua kajian data simulasi, setiap gugus data yang telah dibentuk akan diuji untuk mencari gugus data yang terindikasi underfit apabila dimodelkan dengan RF. Proses pencarian gugus data yang underfit menggunakan teknik trial and error hingga diperoleh 100 gugus data underfit pada kedua kajian data simulasi.
Hasil kajian simulasi, algoritma RF, RoF, DRF, dan RoDRF memilki kinerja model yang tidak cukup baik untuk memodelkan data tidak seimbang. Penanganan data tidak seimbang dengan EasyEnsemble terbukti dapat menghasilkan model dengan kinerja yang lebih baik dibandingkan dengan perlakuan SMOTE dan tanpa penanganan. Selain itu, algoritma RoDRF (termasuk RoF) memiliki kinerja yang lebih baik dibanding algoritma RF dan DRF saat pemodelan dilakukan pada gugus data dengan tipe peubah penjelas numerik. Sedangkan pada gugus data dengan peubah penjelas kategorik, algoritma RF dan DRF memiliki kinerja yang lebih unggul. Hasil kajian empiris menunjukkan bahwa model DRF dengan teknik EasyEnsemble menghasilkan model dengan kinerja terbaik diantara beberapa algoritma yang diuji. Meskipun akurasi yang dihasilkan sebesar 0,62688 dan nilai AUC sebesar 0,69242, namun model dapat memprediksi setiap kelas secara merata. Adapun sepuluh peubah yang memiliki kontribusi terbesar dalam klasifikasi status rawan pangan di Sulawesi Selatan adalah luas lantai tempat tinggal, keberadaan ART sakit namun tidak rawat jalan, jenis dinding tempat tinggal, keikutsertaan BPNT, persentase ART buta huruf, kepemilikan aset tanah, jenis lantai tempat tinggal, persentase ART penabung, sumber air minum rumah tangga, dan lama sekolah KRT.
