Evaluasi Metode Ensemble untuk Klasifikasi Multi Kelas Data Tak Seimbang
Abstract
Salah satu masalah yang sering muncul pada analisis klasifikasi adalah data tak seimbang. Masalah tersebut menyebabkan kesalahan prediksi pada proses klasifikasi sehingga mempengaruhi sensitivitas khususnya pada kelas minoritas. Data tak seimbang dapat ditangani menggunakan Synthetic Minority Oversampling Technique (SMOTE). Selain itu, metode ensemble digunakan pada proses klasifikasi karena mampu meningkatkan kinerja klasifikasi. Penelitian ini mengevaluasi metode ensemble dan mengombinasikannya dengan SMOTE untuk mengatasi masalah tersebut. Data yang digunakan pada penelitian ini meliputi data balance-scale, nursery, redwine quality, internet firewall dan Indeks Standar Pencemaran Udara (ISPU). Penelitian difokuskan pada random forest dan adaboost yang merupakan anggota metode ensemble dan sebagai pembanding untuk mengetahui kebaikan kinerja metode tersebut dikaji pula metode k-Nearest Neighbor (KNN) dan decision tree dari keluarga pengklasifikasi tunggal. Hasil klasifikasi dievaluasi dengan cara membandingkan metode ensemble dan pengklasifikasi tunggal berdasarkan akurasi, sensitivitas, dan spesifisitas pada kondisi data sebelum dan setelah proses SMOTE. Evaluasi hasil klasifikasi pada kelima dataset yang digunakan menunjukkan bahwa metode ensemble cenderung memberikan kinerja yang lebih baik dibandingkan dengan decision tree dan KNN. Data yang telah melalui proses SMOTE menghasilkan sensitivitas yang lebih baik, khususnya pada kelas minoritas. Kata kunci: adaboost, random forest, SMOTE One of the problems that often arise in classification analysis is unbalanced data. This problem causes prediction errors in the classification process, so that it affects the sensitivity, especially in the minority class. Unbalanced data can be handled using Synthetic Minority Oversampling Technique (SMOTE). In addition, the ensemble method is used in the classification process because it can improve classification performance. The study evaluates the ensemble method and combines it with the SMOTE to deal with the problem. The data used in this study include balance-scale, nursery, redwine quality, internet firewall, and Air Pollution Standard Index. The study focused on random forest and adaboost in the class of ensemble methods and as a comparison to determine the good performance of this method, the k-Nearest Neighbor (KNN) and decision tree in the class of single classifier. The classification results are evaluated by comparing the ensemble and single classifier methods based on accuracy, sensitivity, and specificity on the data conditions before and after the SMOTE process. The evaluation of the classification result on the five datasets used shows that the ensemble method tends to provide better performance than decision tree and KNN. Data that has been processed with SMOTE produced a better sensitivity, especially in the minority class. Keywords: adaboost, random forest, SMOTE