Kajian Simulasi Over-Sampling K-Tetangga Terdekat pada Regresi Logistik Terboboti dan Penerapannya untuk Klasifikasi Rumahtangga Miskin di Provinsi Daerah Istimewa Yogyakarta
View/ Open
Date
2018Author
Santoso, Budi
Mudikdjo, Kooswardhono
Hutagaol, Parulian
Hadi, Setia
Syafa'at, Nizwar
Metadata
Show full item recordAbstract
Dalam beberapa tahun terakhir, penelitian tentang data tidak seimbang telah
banyak dilakukan. Data tidak seimbang merupakan data yang memiliki peubah
respon berupa kategori dua kelas atau lebih dimana salah satu kelas memiliki
frekuensi yang lebih kecil yaitu disebut kelas minoritas dibandingkan kelas
lainnya yang memiliki frekuensi lebih besar yang dinamakan kelas mayoritas.
Kejadian data tidak seimbang dapat menyebabkan permasalahan dalam
metode klasifikasi yaitu terjadinya bias dalam pendugaan parameter serta
kesalahan prediksi pada klasifikasi terutama pada kelas minoritas. Secara umum
data minoritas merupakan data strategis yang menarik perhatian sebagai objek
penelitian, diantaranya data rumahtangga miskin. Penelitian tentang klasifikasi
rumahtangga miskin belum banyak dilakukan jika dikaitkan dengan keadaan data
tidak seimbang. Sebagian besar penelitian tentang klasifikasi kemiskinan
mengasumsikan bahwa data antar kelas seimbang, atau proporsi rumahtangga
miskin dan rumahtangga tidak miskin dianggap sama.
Penggunaan metode klasifikasi baik yang berbasis statistik seperti regresi
logistik (RL), analisis diskriminan, k-nearest neighbor dan naïve bayes maupun
yang berbasis machine learning seperti analisis pohon keputusan, neural network
dan support vector machine (SVM) tidak dapat mengatasi masalah data tidak
seimbang. Dengan demikian perlu penanganan tersendiri dalam mengatasi
permasalahan pada data tidak seimbang.
Penanganan data tidak seimbang dilakukan melalui dua pendekatan yaitu
pendekatan pada level data dan pendekatan pada level algoritma. Solusi pada level
data dilakukan dengan menyeimbangkan distribusi kelas minoritas dan mayoritas
melalui metode under sampling, over-sampling atau hybrid. Sementara itu, solusi
pada level algoritma dilakukan dengan cara menyesuaikan algoritma tanpa
mengubah distribusi data melalui fungsi biaya, modifikasi metode klasifikasi
maupun ensemble.
Pada pendekatan level data, metode over-sampling secara umum dapat
memberikan hasil yang lebih baik dibandingkan metode under sampling terutama
pada data dengan tingkat ketidakseimbangan yang tinggi. Penerapan berbagai
metode over-sampling dapat meningkatkan ketepatan klasifikasi pada data
minoritas, namun belum dapat memberikan hasil yang memuaskan. Hasil berbagai
penelitian mengindikasikan bahwa belum ada metode yang dominan lebih baik
dalam menangani permasalahan data tidak seimbang. Selain itu, metode oversampling
belum mampu mengatasi permasalahan terjadinya bias pada pendugaan
parameter. Penggunaan metode over-sampling masih terbatas untuk menangani
permasalahan ketepatan klasifikasi pada data minoritas.
Penanganan terhadap masalah bias pada pendugaan parameter dilakukan
dengan pendekatan level algoritma pada metode klasifikasi RL. Metode untuk
mengatasi permasalahan pendugaan parameter dapat dilakukan melalui bias
correction dan weighting seperti yang diusulkan oleh King dan Zeng (2001).
vi
Pendekatan linier (non kernel) dilakukan Maalouf dan Siddiqi (2014) melalui
metode rare event weighted logistic regression (RE-WLR) atau Regresi Logistik
Terboboti (RLT). Hasil RLT menghasilkan kesimpulan bahwa metode RLT
mampu mengatasi permasalahan bias pada pendugaan parameter dengan baik.
Meskipun demikian, pendekatan RLT belum mampu menghasilkan ketepatan
klasifikasi secara memuaskan seperti halnya pendekatan over-sampling.
Berdasarkan pendekatan yang telah dilakukan dalam penanganan data tidak
seimbang, dapat dikatakan bahwa metode yang ada belum dapat mengatasi
permasalahan bias pada pendugaan parameter dan masalah ketepatan klasifikasi
secara bersamaan. Penelitian ini mencoba untuk mengatasi permasalahan tersebut
melalui kedua pendekatan yaitu pengembangan metode over-sampling (metode
over-sampling dengan K tetangga terdekat/K-NOS) dan penyesuaian pada metode
RLT atau Regresi Logistik Terboboti yang Disesuaikan (RLTD). Tujuan dari
penelitian ini untuk memperbaiki ketepatan klasifikasi dan mampu mereduksi bias
pada pendugaan parameter melalui 3 kajian.
Hasil kajian 1 mengkonfirmasikan bahwa data yang tidak seimbang dapat
menyebabkan terjadinya bias pada pendugaan parameter dan menurunkan
ketepatan klasifikasi pada data minoritas. Berdasarkan perbandingan antar metode
over-sampling dengan menggunakan empat ukuran penilaian (AUC, bias
minimum, sensitivity dan specificity), metode SLS dan BLS merupakan metode
yang memiliki kinerja yang lebih baik dibanding metode ROS dan SMOTE. Hasil
kajian 2 menunjukkan bahwa pengembangan metode over-sampling (K-NOS)
mampu memberikan nilai skor kinerja yang lebih baik dibandingkan dengan
metode SLS dan BLS. Selain memiliki kinerja yang lebih baik, metode K-NOS
mampu memberikan hasil yang lebih konsisten yang ditandai dengan rendahnya
nilai standar deviasi dari ukuran kinerja.
Penerapan model RLT pada metode K-NOS mampu mereduksi bias pada
pendugaan parameter. Namun di sisi lainnya, penggunaan RLT dapat menurunkan
kinerja klasifikasi. Selanjutnya model RLTD diterapkan dengan menggunakan
metode K-NOS. Berdasarkan empat kriteria yang digunakan, metode K-NOS
dengan model RLTD memiliki nilai skor paling tinggi dibandingkan model RL
dan RLT. Sehingga dapat disimpulkan bahwa metode K-NOS dengan model
RLTD memiliki kinerja klasifikasi yang lebih baik dan menghasilkan nilai bias
yang minimum jika dibandingkan dengan metode lainnya.
Penerapan metode K-NOS pada data riil rumahtangga miskin di Provinsi
Daerah Istimewa Yogyakarta pada kajian 3 mampu memberikan hasil yang lebih
baik. Metode K-NOS dengan model RLTD memberikan nilai AUC yang tertinggi
dan memiliki bias yang minimum. Berdasarkan gabungan empat aspek kriteria,
metode K-NOS dengan model RLTD memiliki skor tertinggi sehingga dapat
disimpulkan bahwa metode K-NOS dengan model RLTD memiliki kinerja
klasifikasi yang paling baik pada rumahtangga miskin di Provinsi Daerah
Istimewa Yogyakarta.
Penerapan metode K-NOS dengan model RLTD mampu mengatasi
permasalahan dari penelitian serta menjawab tujuan penelitian yaitu menghasilkan
nilai bias yang minimum pada pendugaan parameter dan meningkatkan ketepatan
klasifikasi dibandingkan dengan metode lainnya.