Penerapan SMOTE dan RUSBoost pada Pohon Keputusan C5.0 dalam Penanganan Data Tidak Seimbang (Studi Kasus: Keberhasilan Studi Mahasiswa Program Magister di Departemen Statistika IPB).
Abstract
Ketidakseimbangan kelas data merupakan salah satu permasalahan dalam klasifikasi yang mengakibatkan nilai sensitivitas rendah, seperti yang terjadi pada data lama studi Program Studi Statistika Terapan (STT) dan Program Studi Statistika (STK). Penelitian ini berupaya menangani masalah tersebut dengan menerapkan metode Synthetic Minority Oversampling Technique (SMOTE) dan Random Undersampling Boosting (RUSBoost) pada pohon keputusan C5.0. Hasil penelitian menunjukkan nilai sensitivitas hanya 8% untuk data STT dan pada data STK 4%. Metode RUSBoost mampu meningkatkan nilai sensitivitas pada data STT menjadi 95.6% dengan akurasi sebesar 90.5%. Demikian pula metode SMOTE mampu meningkatkan sensitivitas data STK menjadi 95.4% dengan akurasi sebesar 94.62%. Sementara itu, klasifikasi pohon keputusan C5.0 tanpa RUSBoost dan SMOTE untuk peubah IPK lulus baik STT maupun STK sudah menghasilkan kinerja yg baik (diatas 70% untuk STK dan diatas 80% untuk STT), karena peubah ini memiliki kelas data yg seimbang. Hal ini menjadi bukti bahwa penangangan atas ketidakseimbangan kelas data menggunakan SMOTE dan RUSBoost mampu meningkatkan kinerja klasifikasi. Dari model klasifikasi yang terbaik diperoleh peubah penting untuk pemodelan klasifikasi mahasiswa STT dan STK, yaitu perguruan tinggi S1 dan program studi S1. Di samping itu, pada STT peubah yang turut penting ialah usia, dan pada STK ialah IPK S1.