Kajian Regresi Logistik dan CHAID pada Class Imbalance (Studi Kasus : Pekerja Anak Tereksploitasi di Provinsi Sulawesi Tenggara)
Date
2023-08Author
Reminda, Nova
Wigena, Aji Hamim
Syafitri, Utami Dyah
Metadata
Show full item recordAbstract
Class imbalance (data tidak seimbang) terjadi ketika distribusi kelas data tidak seimbang, satu kelas memiliki data lebih sedikit dari yang lain. Class imbalance menyebabkan objek di kelas mayoritas diklasifikasikan berbeda dengan objek di kelas minoritas. Class imbalance dapat menyebabkan masalah dalam pemodelan klasifikasi, seperti kesalahan prediksi dalam klasifikasi.
Dalam beberapa tahun terakhir, penelitian tentang pekerja anak telah banyak dilakukan dengan menggunakan berbagai metode, namun belum banyak dilakukan jika dikaitkan dengan class imbalance. Umumnya penelitian dilakukan tanpa mendefinisikan bahwa pekerja anak merupakan class imbalance. Class imbalance menyebabkan objek di kelas mayoritas diklasifikasikan berbeda dengan objek di kelas minoritas. Sampel di kelas mayoritas diklasifikasikan dengan benar, tetapi sampel di kelas minoritas diklasifikasikan dengan tidak benar sehingga diperlukan penanganan khusus untuk mengatasi masalah class imbalance. Dua pendekatan digunakan untuk menyelesaikan masalah ini yaitu solusi tingkat data dan solusi tingkat algoritma. Solusi tingkat data diimplementasikan dengan menyeimbangkan distribusi kelas mayoritas dan minoritas melalui under-sampling, over-sampling, atau kombinasi keduanya. Solusi tingkat algoritma dilakukan dengan menyesuaikan algoritma tanpa mengubah distribusi data oleh fungsi biaya, sehingga mengubah metode klasifikasi atau ensamble. Solusi tingkat data memiliki keuntungan karena fleksibel dalam memilih metode klasifikasi mana yang akan digunakan.
Metode over-sampling lebih umum digunakan karena memberikan hasil yang lebih baik daripada metode under-sampling. Hal ini dikarenakan teknik under-sampling dapat menghilangkan beberapa informasi penting yang terkandung dalam dataset. Namun, metode over-sampling memiliki kelemahan yaitu menimbulkan masalah overfitting. Chawla (2002) mengembangkan teknik over-sampling yaitu SMOTE (Synthetic Minority Oversampling Technique). SMOTE-N melakukan over-sampling data sintetik tanpa menimbulkan masalah overfitting dengan pendekatan k-nearest neighbor.
Regresi logistik adalah teknik klasifikasi dalam bentuk model matematis yang menggambarkan hubungan antara peubah bebas dan peubah respon kategorik serta memiliki nilai odds ratio yang menunjukkan probabilitas. Chisquare Automatic Interaction Detection (CHAID) adalah pohon klasifikasi yang melakukan splitting menggunakan nilai uji chi-square yang digunakan ketika peubah respons bersifat kategorik. CHAID memproses data lebih cepat karena diagram pohon yang dibentuk oleh CHAID tidak dibatasi oleh binary split. Penelitian yang menggabungkan metode regresi logistik dan CHAID dengan melakukan penanganan class imbalance belum pernah dilakukan sebelumnya, biasanya penelitian dilakukan secara terpisah.
Permasalahan dalam data yang tidak seimbang bergantung pada tingkat ketidakseimbangan data, kompleksitas dari ketidakseimbangan data, ukuran data dan penggunaan metode klasifikasi. Permasalahan bias pada pendugaan parameter dan ketidaktepatan klasifikasi terutama terjadi pada data dengan ukuran yang kecil yaitu nilai n di bawah 2000 dan data dengan ketidakseimbangan yang tinggi yaitu π dibawah 0,05. Tujuan penelitian ini adalah mengevaluasi kinerja regresi logistik dan CHAID dalam permasalahan klasifikasi dengan class imbalance. Pada kajian simulasi ingin diidentifikasi nilai π (tingkat ketidakseimbangan data) dan n (jumlah sampel) yang memiliki permasalahan pada class imbalance. Pada kajian empiris ingin dicari faktor-faktor yang mempengaruhi tingginya angka pekerja anak di Sulawesi Tenggara pada bulan Agustus 2021.
Hasil simulasi data memberikan informasi bahwa class imbalance dapat menyebabkan terjadinya permasalahan pada ketepatan klasifikasi kelas minoritas. Penerapan metode SMOTE-N mampu meningkatkan ketepatan klasifikasi pada data minoritas yang ditandai oleh meningkatnya nilai AUC dan sensitivity. Regresi logistik memiliki permasalahan class imbalance pada data berukuran sedang (n = 300 dan n = 500) dan π = 10%. CHAID memiliki permasalahan class imbalance pada data berukuran kecil (n = 100), π = 10% dan π = 15%. Regresi logistik dan CHAID tidak mengalami permasalahan class imbalance pada data berukuran besar (n = 1000) dan tingkat ketidakseimbangan rendah (π = 20%).
Berdasarkan persamaan regresi logistik diperoleh karakteristik dengan besaran peluang seorang anak tereksploitasi di Provinsi Sulawesi Tenggara Tahun 2021. Seorang anak laki-laki tinggal di perkotaan, tidak bersekolah lagi, tidak tinggal dengan orangtua, berasal dari keluarga sedang/kecil dengan kepala rumah tangga perempuan dan tamat SLTA, memiliki peluang tereksploitasi sebesar 0,9997. Peluang seorang anak tereskploitasi sangat kecil yaitu 0,001 jika anak berjenis kelamin perempuan, tinggal di pedesaan, masih bersekolah, masih tinggal dengan orangtua, berada dalam keluarga besar, jenis kelamin kepala rumah tangga perempuan dan bukan tamatan SLTA. Pohon keputusan CHAID menghasilkan simpul (node) berjumlah dua puluh empat, dengan peubah yang paling mempengaruhi pekerja anak tereksploitasi adalah pendidikan pekerja anak (X3).