Perbandingan Metode CHAID dan Random Forest dalam Klasifikasi Status Kemiskinan Rumah Tangga di Jawa Tengah
Date
2022Author
Izzati, Fatkhul
Masjkur, Mohammad
Afendi, Farit Mochamad
Metadata
Show full item recordAbstract
Jawa Tengah menempati posisi kedua sebagai provinsi dengan jumlah
penduduk miskin terbanyak di Indonesia pada Maret 2020 lalu. Upaya
pengentasan kemiskinan sudah dilakukan, namun masih banyak yang belum tepat
sasaran. Tujuan dari penelitian ini adalah melakukan pemodelan klasifikasi status
kemiskinan rumah tangga di Jawa Tengah menggunakan metode CHAID dan
random forest serta membandingkan kedua metode tersebut. Data yang digunakan
dalam penelitian ini adalah data hasil Survei Sosial Ekonomi Nasional
(SUSENAS) 2020 yang dilakukan oleh Badan Pusat Statistik (BPS) untuk
wilayah Provinsi Jawa Tengah. Jumlah rumah tangga miskin jauh lebih sedikit
dibandingkan dengan rumah tangga tidak miskin. Oleh karena itu, dilakukan
Synthetic Minority Oversampling Technique (SMOTE) untuk menangani data
tidak seimbang. Metode random forest menghasilkan performa klasifikasi yang
lebih baik dibandingkan metode CHAID dengan nilai akurasi, sensitivitas,
spesifisitas dan AUC berturut-turut 93,95%, 98,43%, 89,92%, dan 0,94. Peubah
penting yang membangun model random forest adalah peubah luas lantai rumah,
umur kepala rumah tangga, bahan bakar memasak, tempat pembuangan akhir tinja
dan kepemilikan tempat buang air besar. Central Java was in the second position as the province with the highest
number of poor people in Indonesia in March 2020. Poverty alleviation efforts
have been carried out, but many are still not on target. The purpose of this study
was to model the classification of household poverty status in Central Java using
CHAID and random forest methods and compare the two methods. The data used
in this study is data from the 2020 National Socioeconomic Survey (SUSENAS)
conducted by the Central Bureau of Statistics (BPS) for Central Java. The number
of poor households is much less than non-poor households. Therefore, SMOTE
was performed to handle unbalanced data. The random forest method produced
better classification performance than the CHAID method with accuracy,
sensitivity, specificity, and AUC of 93,95%, 98,43%, 89,92%, and 0,94,
respectively. The important variables that build the random forest model are the
floor area of the house, the age of the head of the household, cooking fuel, the
place for the final disposal of feces, and ownership of the place to defecate.