Kajian Metode Penanganan Data Tak Seimbang pada Klasifikasi Multi Kelas
Abstract
Metode penyeimbangan data pada kasus multi kelas terus berkembang seiring dengan pentingnya kondisi data yang seimbang untuk analisis klasifikasi. Semakin besar perbedaan proporsi suatu kelas terhadap kelas lainnya, semakin besar pula kemungkinan menurunnya kinerja klasifikasi. Tiga pendekatan penanganan data tak seimbang secara garis besar, yaitu pendekatan tingkat data, pendekatan tingkat algoritma dan pendekatan gabungan (hybrid). Pendekatan tingkat data yang sering digunakan yaitu Synthetic Minority Oversampling Technique (SMOTE), Adaptive Synthetic (ADASYN), dan SMOTE and Cluster-based Undersampling Technique (SCUT). Selain itu, untuk meningkatkan kinerja hasil klasifikasi juga digunakan metode ensemble. Penelitian ini bertujuan mengkaji kinerja SMOTE, ADASYN, dan SCUT yang dikombinasikan dengan random forest, adaboost, decision tree, dan metode stacking dalam menyeimbangkan data dan meningkatkan kinerja klasifikasi, khususnya sensitivitas kelas minoritas.
Penelitian ini menggunakan lima gugus data yang bersumber dari UCI Machine Learning Repository yaitu data balance-scale, red wine quality, internet firewall, ecoli, dan glass. Selain itu, kajian juga menggunakan data riil Indonesia, yaitu data kemiskinan pada tahun 2020 yang bersumber dari Badan Pusat Statistik (BPS). Keenam data tersebut memiliki jumlah amatan, peubah, dan kelas yang beragam. Data penelitian juga memiliki beberapa kriteria seperti berikut: (1) Proporsi kelas yang tidak seimbang, (2) Besarnya jumlah amatan, (3) Tumpang tindih (overlapping) antarkelas, dan (4) Subkonsep dalam kelas. Keenam gugus data yang digunakan dapat memiliki seluruh atau sebagian kriteria ketakseimbangan data.
Pemodelan dilakukan pada data latih. Metode penanganan ketakseimbangan data yang diterapkan yaitu SMOTE, ADASYN, dan SCUT. Kemudian proses klasifikasi diterapkan pada data asli (data tak seimbang) dan data yang telah diseimbangkan dengan tiga metode tersebut. Pengklasifikasi yang digunakan adalah random forest, adaboost, decision tree, dan metode stacking. Pengklasifikasi dasar pada metode stacking yang digunakan adalah random forest, adaboost, dan decision tree serta menggunakan meta learner regresi logistik. Hasil klasifikasi dievaluasi dengan cara membandingkan kombinasi-kombinasi metode yang terbentuk berdasarkan akurasi, sensitivitas, dan F1-score. Selain itu, analisis perbandingan menggunakan uji Friedman dan Nemenyi post hoc untuk menentukan kombinasi metode penanganan data tak seimbang yang signifikan dalam meningkatkan akurasi, sensitivitas, dan F1-score. Kemudian, hasil uji perbandingan di sajikan melalui diagram Demsar.
Kondisi ketakseimbangan data dibagi menjadi tiga kondisi, yaitu: (1) Ketakseimbangan data sangat ekstrem yang terjadi pada data red wine quality, internet firewall, ecoli, dan glass, (2) Ketakseimbangan data sedikit ekstrem yang terjadi pada data balance-scale, dan (3) Ketakseimbangan data tidak ekstrem yang terjadi pada data kemiskinan. Kriteria data lain yang dieksplorasi yaitu kondisi overlapping. Beberapa kondisi tersebut yang mungkin terjadi di antaranya, (1) Posisi terpisah yang terjadi pada data balance-scale, (2) Posisi beririsan yang terjadi pada data ecoli, dan (3) Posisi menumpuk yang terjadi pada data red wine quality, internet firewall, glass, dan kemiskinan.
Metode SMOTE, ADASYN, dan SCUT secara umum dapat menyeimbangkan kelas sehingga proporsi kelas menjadi merata pada semua gugus data. Namun demikian, fungsi SCUT pada package scutr mengalami error saat mengolah data ecoli karena metode tersebut tidak mampu bekerja pada data dengan anggota kelas kurang dari 5 amatan. Oleh sebab itu, amatan pada ketiga kelas dihapus sehingga data ecoli terdiri atas 5 kelas sisanya. Secara umum, akurasi prediksi yang diperoleh dari keseluruhan data cukup bagus, khususnya yang menggunakan metode stacking sebagai pengklasifikasinya. Penggunaan metode penanganan ketakseimbangan data secara umum juga dapat meningkatkan sensitivitas yang semula bernilai nol pada data asli. SCUT menjadi metode terbaik untuk mengatasi ketakseimbangan data secara umum. Selain itu, secara keseluruhan, ketiga metode penanganan ketakseimbangan data yang digunakan dapat meningkatkan nilai F1-score. SCUT juga menjadi penghasil nilai F1-score terbaik.
Evaluasi hasil klasifikasi pada semua gugus data yang digunakan menunjukkan bahwa metode ensemble cenderung menghasilkan kinerja yang lebih baik, khususnya metode stacking. Sementara itu, SCUT cenderung menghasilkan kinerja yang baik dibandingkan SMOTE dan ADASYN. Walaupun demikian, keseluruhan metode penanganan data tak seimbang mampu memperbaiki kinerja klasifikasi pada data tak seimbang. Data balancing methods in multi-class cases continue to develop along with the importance of balanced data conditions for classification analysis. The greater the difference in the proportion of one class to another, the greater the possibility of decreasing classification performance. The three approaches to handling unbalanced data in general are the data level approach, the algorithm level approach, and the hybrid approach. The data level approaches that are often used are Synthetic Minority Oversampling Technique (SMOTE), Adaptive Synthetic (ADASYN), and SMOTE and Cluster-based Undersampling Technique (SCUT). In addition, to improve the performance of the classification results, the ensemble method is also used. This study aims to examine the performance of SMOTE, ADASYN, and SCUT combined with random forest, adaboost, decision tree, and stacking methods in balancing data and improving classification performance, especially the sensitivity of minority classes.
This study uses five datasets sourced from the UCI Machine Learning Repository including balance-scale, red wine quality, internet firewall, ecoli, and glass data. In addition, the study also uses real Indonesian data, namely poverty data in 2020, which is sourced from the Central Statistics Agency (BPS). The six datasets have various numbers of observations, variables, and classes. The research data also has several criteria such as the following: (1) The proportion of class imbalances, (2) The number of observations (3) Overlapping, and (4) Within class subconcepts. The six data sets used can have all or part of the data imbalance criteria.
Modeling is done on training data. The data imbalance handling methods applied are SMOTE, ADASYN, and SCUT. Then the classification process is applied to the original data (unbalanced data) and the data that has been balanced by the three methods. The classifiers used are random forest, adaboost, decision tree, and stacking methods. The base learner in the stacking method used are random forest, adaboost, and decision tree and use a logistic regression meta learner. The classification results were evaluated by comparing the combinations of methods based on accuracy, sensitivity, and F1 score. In addition, the comparative analysis used the post hoc Friedman and Nemenyi tests to determine the combination of methods for handling unbalanced data that was significant in increasing accuracy, sensitivity, and F1-score. Then, the comparative test results are presented through the Demsar diagram.
The data imbalance conditions are divided into three conditions, namely: (1) Extremely extreme data imbalance that occurs in red wine quality, internet firewall, ecoli, and glass data, (2) Slightly extreme data imbalance that occurs in balance-scale data, and (3) The imbalance of data is not extreme that occurs in poverty data. Another data criterion explored is the overlapping condition. Some of these conditions that may occur include, (1) Separate positions that occur in balance-scale data, (2) Intersecting positions that occur in ecoli data, and (3) Stacking positions that occur in red wine quality data, internet firewalls, glass, and poverty.
SMOTE, ADASYN, and SCUT methods in general can balance classes so that the proportion of classes is evenly distributed across all datesets. However, the SCUT function in the scutr package experienced an error when processing ecoli data because the method was unable to work on data with less than 5 class members. Therefore, the observations on the three classes were deleted so that the ecoli data consisted of the remaining 5 classes. In general, the prediction accuracy obtained from the overall data is quite good, especially for those using the stacking method as a classifier. The use of data imbalance handling methods in general can also increase the sensitivity which was originally zero in the original data. SCUT is the best method for dealing with general data imbalances. In addition, overall, the three methods of handling data imbalances used can increase the F1-score value. SCUT is also the producer of the best F1-score scores.
Evaluation of the classification results on all the datesets used shows that the ensemble method tends to produce better performance, especially the stacking method. Meanwhile, SCUT tends to produce better performance than SMOTE and ADASYN. However, all methods of handling unbalanced data can improve classification performance on unbalanced data.