Kajian Simulasi Over-Sampling K-Tetangga Terdekat pada Regresi Logistik Terboboti dan Penerapannya untuk Klasifikasi Rumahtangga Miskin di Provinsi Daerah Istimewa Yogyakarta

Santoso, Budi

View/Open

Fulltext (123.7Mb)

Date

2018

Author

Santoso, Budi

Mudikdjo, Kooswardhono

Hutagaol, Parulian

Hadi, Setia

Syafa'at, Nizwar

Metadata

Show full item record

Abstract

Dalam beberapa tahun terakhir, penelitian tentang data tidak seimbang telah banyak dilakukan. Data tidak seimbang merupakan data yang memiliki peubah respon berupa kategori dua kelas atau lebih dimana salah satu kelas memiliki frekuensi yang lebih kecil yaitu disebut kelas minoritas dibandingkan kelas lainnya yang memiliki frekuensi lebih besar yang dinamakan kelas mayoritas. Kejadian data tidak seimbang dapat menyebabkan permasalahan dalam metode klasifikasi yaitu terjadinya bias dalam pendugaan parameter serta kesalahan prediksi pada klasifikasi terutama pada kelas minoritas. Secara umum data minoritas merupakan data strategis yang menarik perhatian sebagai objek penelitian, diantaranya data rumahtangga miskin. Penelitian tentang klasifikasi rumahtangga miskin belum banyak dilakukan jika dikaitkan dengan keadaan data tidak seimbang. Sebagian besar penelitian tentang klasifikasi kemiskinan mengasumsikan bahwa data antar kelas seimbang, atau proporsi rumahtangga miskin dan rumahtangga tidak miskin dianggap sama. Penggunaan metode klasifikasi baik yang berbasis statistik seperti regresi logistik (RL), analisis diskriminan, k-nearest neighbor dan naïve bayes maupun yang berbasis machine learning seperti analisis pohon keputusan, neural network dan support vector machine (SVM) tidak dapat mengatasi masalah data tidak seimbang. Dengan demikian perlu penanganan tersendiri dalam mengatasi permasalahan pada data tidak seimbang. Penanganan data tidak seimbang dilakukan melalui dua pendekatan yaitu pendekatan pada level data dan pendekatan pada level algoritma. Solusi pada level data dilakukan dengan menyeimbangkan distribusi kelas minoritas dan mayoritas melalui metode under sampling, over-sampling atau hybrid. Sementara itu, solusi pada level algoritma dilakukan dengan cara menyesuaikan algoritma tanpa mengubah distribusi data melalui fungsi biaya, modifikasi metode klasifikasi maupun ensemble. Pada pendekatan level data, metode over-sampling secara umum dapat memberikan hasil yang lebih baik dibandingkan metode under sampling terutama pada data dengan tingkat ketidakseimbangan yang tinggi. Penerapan berbagai metode over-sampling dapat meningkatkan ketepatan klasifikasi pada data minoritas, namun belum dapat memberikan hasil yang memuaskan. Hasil berbagai penelitian mengindikasikan bahwa belum ada metode yang dominan lebih baik dalam menangani permasalahan data tidak seimbang. Selain itu, metode oversampling belum mampu mengatasi permasalahan terjadinya bias pada pendugaan parameter. Penggunaan metode over-sampling masih terbatas untuk menangani permasalahan ketepatan klasifikasi pada data minoritas. Penanganan terhadap masalah bias pada pendugaan parameter dilakukan dengan pendekatan level algoritma pada metode klasifikasi RL. Metode untuk mengatasi permasalahan pendugaan parameter dapat dilakukan melalui bias correction dan weighting seperti yang diusulkan oleh King dan Zeng (2001). vi Pendekatan linier (non kernel) dilakukan Maalouf dan Siddiqi (2014) melalui metode rare event weighted logistic regression (RE-WLR) atau Regresi Logistik Terboboti (RLT). Hasil RLT menghasilkan kesimpulan bahwa metode RLT mampu mengatasi permasalahan bias pada pendugaan parameter dengan baik. Meskipun demikian, pendekatan RLT belum mampu menghasilkan ketepatan klasifikasi secara memuaskan seperti halnya pendekatan over-sampling. Berdasarkan pendekatan yang telah dilakukan dalam penanganan data tidak seimbang, dapat dikatakan bahwa metode yang ada belum dapat mengatasi permasalahan bias pada pendugaan parameter dan masalah ketepatan klasifikasi secara bersamaan. Penelitian ini mencoba untuk mengatasi permasalahan tersebut melalui kedua pendekatan yaitu pengembangan metode over-sampling (metode over-sampling dengan K tetangga terdekat/K-NOS) dan penyesuaian pada metode RLT atau Regresi Logistik Terboboti yang Disesuaikan (RLTD). Tujuan dari penelitian ini untuk memperbaiki ketepatan klasifikasi dan mampu mereduksi bias pada pendugaan parameter melalui 3 kajian. Hasil kajian 1 mengkonfirmasikan bahwa data yang tidak seimbang dapat menyebabkan terjadinya bias pada pendugaan parameter dan menurunkan ketepatan klasifikasi pada data minoritas. Berdasarkan perbandingan antar metode over-sampling dengan menggunakan empat ukuran penilaian (AUC, bias minimum, sensitivity dan specificity), metode SLS dan BLS merupakan metode yang memiliki kinerja yang lebih baik dibanding metode ROS dan SMOTE. Hasil kajian 2 menunjukkan bahwa pengembangan metode over-sampling (K-NOS) mampu memberikan nilai skor kinerja yang lebih baik dibandingkan dengan metode SLS dan BLS. Selain memiliki kinerja yang lebih baik, metode K-NOS mampu memberikan hasil yang lebih konsisten yang ditandai dengan rendahnya nilai standar deviasi dari ukuran kinerja. Penerapan model RLT pada metode K-NOS mampu mereduksi bias pada pendugaan parameter. Namun di sisi lainnya, penggunaan RLT dapat menurunkan kinerja klasifikasi. Selanjutnya model RLTD diterapkan dengan menggunakan metode K-NOS. Berdasarkan empat kriteria yang digunakan, metode K-NOS dengan model RLTD memiliki nilai skor paling tinggi dibandingkan model RL dan RLT. Sehingga dapat disimpulkan bahwa metode K-NOS dengan model RLTD memiliki kinerja klasifikasi yang lebih baik dan menghasilkan nilai bias yang minimum jika dibandingkan dengan metode lainnya. Penerapan metode K-NOS pada data riil rumahtangga miskin di Provinsi Daerah Istimewa Yogyakarta pada kajian 3 mampu memberikan hasil yang lebih baik. Metode K-NOS dengan model RLTD memberikan nilai AUC yang tertinggi dan memiliki bias yang minimum. Berdasarkan gabungan empat aspek kriteria, metode K-NOS dengan model RLTD memiliki skor tertinggi sehingga dapat disimpulkan bahwa metode K-NOS dengan model RLTD memiliki kinerja klasifikasi yang paling baik pada rumahtangga miskin di Provinsi Daerah Istimewa Yogyakarta. Penerapan metode K-NOS dengan model RLTD mampu mengatasi permasalahan dari penelitian serta menjawab tujuan penelitian yaitu menghasilkan nilai bias yang minimum pada pendugaan parameter dan meningkatkan ketepatan klasifikasi dibandingkan dengan metode lainnya.

URI

http://repository.ipb.ac.id/handle/123456789/94908

Collections

DT - Mathematics and Natural Science [475]