Klasifikasi Berbasis Pohon pada Data Tidak Seimbang menggunakan Modified Outlier Detection-Based Oversampling Technique (M- ODBOT)
Abstract
Klasifikasi merupakan salah satu teknik pembelajaran mesin yang digunakan untuk mengenali pola suatu kelas atau kategori berdasarkan karakteristik data. Namun, pada proses klasifikasi dapat terjadinya permasalahan data yang tidak seimbang. Data yang tidak seimbang terjadi ketika distribusi kelas dalam dataset tidak merata, di mana jumlah contoh untuk satu kelas jauh lebih banyak dibandingkan kelas lainnya sehingga dapat mempengaruhi hasil klasifikasi. Ketidakseimbangan data dapat berdampak pada kinerja model klasifikasi berbasis pohon, sehingga perlu ditangani sebelum dilakukan proses klasifikasi. Berbagai teknik telah diusulkan untuk menangani masalah ketidakseimbangan data. Teknik penyeimbangan ODBOT (Outlier Detection-Based Oversampling Technique) diperkenalkan oleh Ibrahim tahun 2021 yaitu mengombinasikan algoritma pengelompokan K-Means dan Weight-Based Bat Algorithm (WBBA) yang menggunakan jarak Euclidean dalam proses pembentukan klaster dan optimasi klaster. Meskipun penggunaan jarak Euclidean dalam ODBOT efektif, namun jarak tersebut memiliki keterbatasan dalam menghadapi rentang data yang berbeda atau fitur-fitur yang saling berkorelasi. Jarak Mahalanobis mampu mengatasi keterbatasan tersebut dengan mempertimbangkan korelasi antarpeubah. Berdasarkan hal tersebut, penelitian ini memodifikasi ODBOT dengan mengganti jarak Euclidean menjadi Mahalanobis yaitu Mahalanobis-based ODBOT (M-ODBOT) yang dikombinasikan dengan algoritma klasifikasi berbasis pohon, yaitu Random Forest (RF), Double Random Forest (DRF), eXtreme Gradient Boosting (XGBoost), dan Light Gradient Boosting Machine (LightGBM). Penelitian ini bertujuan menganalisis kinerja klasifikasi berbasis pohon pada data tidak seimbang menggunakan M-ODBOT dan dibandingkan dengan teknik penyeimbangan SMOTE, ODBOT Euclidean serta tanpa penanganan ketidakseimbangan (NONE). Penelitian dilakukan menggunakan data dasar penelitian dengan 20 gugus data yang bersumber dari Keel, Kaggle dan UCI Machine Learning Repository dengan mempertimbangkan keragaman karakteristik data seperti imbalance ratio (IR), jumlah amatan, jumlah kelas, jumlah peubah bebas, dan korelasi antarpeubah. Data empiris menggunakan data Indeks Pembangunan Manusia (IPM) yang berasal dari situs resmi Badan Pusat Statistik (BPS) tahun 2023 dengan empat peubah bebas yaitu persentase penduduk miskin, tingkat pengangguran terbuka, tingkat partisipasi angkatan kerja, dan persentase rumah tangga yang memiliki akses terhadap sumber air minum layak. Hasil penelitian dari 20 gugus data menunjukkan bahwa kinerja model klasifikasi berbasis pohon dengan menggunakan M-ODBOT menghasikan nilai rata-rata yang relatif tinggi yang tidak berbeda jauh dengan ketiga teknik penyeimbangan lainnya terutama pada metrik G-M kinerja M-ODBOT menempati posisi tertinggi kedua setelah SMOTE dan memberikan kinerja yang tidak berbeda dengan ODBOT Euclidean. Hal tersebut menunjukkan bahwa modifikasi jarak mahalanobis pada teknik ODBOT dapat menjadi alternatif dalam menangani data tidak seimbang karena mampu dalam mengenali kelas minoritas dan mayoritas secara seimbang. Selain itu, M-ODBOT menghasilkan kinerja yang lebih baik daripada ODBOT Euclidean ketika diterapkan pada kondisi data yang memiliki korelasi tinggi antarpeubah dengan ketidakseimbangan rendah hingga tinggi. Berdasarkan uji lanjut Duncan pada model klasifikasi, model RF menunjukkan kinerja terbaik terutama pada kondisi data dengan ketidakseimbangan rendah, jumlah amatan kecil dan korelasi antarpeubah relatif rendah, meskipun tidak berbeda signifikan dengan model XGBoost dan LightGBM. Ketika ketidakseimbangan sedang dan memiliki korelasi tinggi antarpeubah, model LightGBM menghasilkan nilai rata-rata tertinggi, dan tidak berbeda dengan model RF, dan XGBoost pada seluruh metrik evaluasi. Sementara itu, pada gugus data yang memiliki jumlah amatan besar dengan ketidakseimbangan tinggi, namun korelasi antarpeubah relatif rendah, model XGBoost menunjukkan kinerja terbaik pada metrik F1-M dan G-M, meskipun tidak ada perbedaan yang signifikan dengan model RF dan LightGBM. Secara keseluruhan, model DRF menunjukkan nilai rata-rata terendah dan menghasilkan kinerja yang berbeda signifikan dengan ketiga model lainnya kecuali pada metrik G-M dengan gugus data yang memiliki jumlah amatan banyak, IR yang cukup tinggi dan korelasi antarpeubah rendah tidak berbeda dengan model RF. Hal ini mengindikasikan bahwa randomisasi ganda pada model DRF menjadi kurang efektif ketika terjadi oversampling pada data yang tidak seimbang. Berdasarkan data IPM, kinerja M-ODBOT tidak berbeda signifikan dengan SMOTE dan lebih efektif mengenali kelas minoritas dibandingkan dengan ODBOT berbasis jarak Euclidean. Namun, peningkatan akurasi ini mengorbankan beban komputasi yang lebih besar. Penggabungan PCA dan ODBOT berbasis Euclidean meningkatkan efisiensi waktu komputasi. Secara keseluruhan, pentingnya pemilihan model klasifikasi terutama berbasis pohon dengan teknik penyeimbangan yang harus disesuaikan dengan karakteristik data. Classification is a machine learning technique used to recognize patterns in a class or category based on data characteristics. However, during the classification process, unbalanced data problems can occur. Unbalanced data occurs when the distribution of classes in a dataset is uneven, where the number of examples for one class is much greater than for others, which can affect the classification results. Data imbalance can affect the performance of tree-based classification models, so it needs to be addressed before the classification process is carried out. Various techniques have been proposed to address the problem of data imbalance. The ODBOT (Outlier Detection-Based Oversampling Technique) balancing technique was introduced by Ibrahim in 2021, combining the K-Means clustering algorithm and the Weight-Based Bat Algorithm (WBBA), which uses Euclidean distance in the cluster formation and optimization process. Although the use of Euclidean distance in ODBOT is effective, it has limitations when dealing with different data ranges or correlated features. Mahalanobis distance can overcome these limitations by considering the correlation between variables. Based on this, this study modifies ODBOT by replacing Euclidean distance with Mahalanobis distance, namely Mahalanobis-based ODBOT (M-ODBOT), which is combined with tree-based classification algorithms, namely Random Forest (RF), Double Random Forest (DRF), eXtreme Gradient Boosting (XGBoost), and Light Gradient Boosting Machine (LightGBM). This study aims to analyze the performance of tree-based classification on imbalanced data using M-ODBOT and compare it with the SMOTE and ODBOT Euclidean balancing techniques, as well as without imbalance handling (NONE). The research was conducted using basic research data with 20 data clusters sourced from Keel, Kaggle, and the UCI Machine Learning Repository, taking into account the diversity of data characteristics such as imbalance ratio (IR), number of observations, number of classes, number of independent variables, and correlation between variables. Empirical data used Human Development Index (HDI) data from the official website of the Badan Pusat Statistik (BPS) in 2023 with four independent variables, namely the percentage of poor population, open unemployment rate, labor force participation rate, and the percentage of households with access to clean drinking water. The results of 20 datasets show that the performance of tree-based classification models using M-ODBOT produces relatively high average values that are not significantly different from the other three balancing techniques, especially in terms of the G-M metric. M-ODBOT's performance ranks second after SMOTE and provides performance that is not significantly different from ODBOT Euclidean. This indicates that modifying the Mahalanobis distance in the ODBOT technique can be an alternative in handling imbalanced data because it can recognize minority and majority classes equally. In addition, M-ODBOT produces better performance than Euclidean ODBOT when applied to data conditions with high correlation between variables with low to high imbalance. Based on Duncan's post-hoc test on the classification model, the RF model showed the best performance, especially in conditions with low data imbalance, a small number of observations, and relatively low inter-variable correlation. However, it was not significantly different from the XGBoost and LightGBM models. In contrast, when the imbalance was moderate and there was a high correlation between variables, the LightGBM model produced the highest average value and did not differ from the RF and XGBoost models in all evaluation metrics. Meanwhile, in data clusters with a large number of observations with high imbalance but relatively low correlation between variables, the XGBoost model showed the best performance on the F1-M and G-M metrics. However, there was no significant difference between the RF and LightGBM models. Overall, the DRF model showed the lowest average value and produced significantly different performance from the other three models, except for the G-M metric with data sets that had a large number of observations, a reasonably high IR, and low correlation between variables, which was not different from the RF model. This indicates that double randomization in the DRF model becomes less effective when oversampling occurs in imbalanced data. Meanwhile, based on IPM data, the performance of M-ODBOT was not significantly different from that of SMOTE. It was more effective at recognizing minority classes than ODBOT, as measured by Euclidean distance. However, this increase in accuracy came at the cost of greater computational load. The combination of PCA and Euclidean-based ODBOT improves computational time efficiency. Overall, it is essential to select a classification model, especially a tree-based model, that incorporates a balancing technique adjusted to the characteristics of the data.
