Please use this identifier to cite or link to this item:
http://repository.ipb.ac.id/handle/123456789/155377| Title: | Kajian Pengaruh Teknik Penyeimbangan Kelas terhadap Kompleksitas Data dalam Pemodelan Klasifikasi |
| Other Titles: | A Study on The Effect of Class Balancing Methods to Data Complexity in Classification Model |
| Authors: | Sartono, Bagus Notodiputro, Khairil Anwar Riantika, Ines |
| Issue Date: | 2024 |
| Publisher: | IPB University |
| Abstract: | Permasalahan klasifikasi merupakan suatu permasalahan yang terjadi pada pemodelan klasifikasi yang dapat memengaruhi performa pemodelan klasifikasi. Permasalahan klasifikasi dapat terjadi permasalahan pada karakteristik dari data. Karakteristik dari data dapat di ukur dengan menggunakan suatu ukuran yang disebut sebagai ukuran kompleksitas data. Ukuran kompleksitas data di antaranya adalah ukuran melihat keterpisahan kelas amatan secara linear, tumpang tindih amatan kelas, dimensi data dan kepadatan data. Pengukuran ukuran kompleksitas data akan memudahkan dalam memahami dan pengambilan keputusan dari analisis data yang akan dilakukan sehingga hasil performa klasifikasi yang didapatkan lebih baik.
Kelas tidak seimbang merupakan salah satu masalah karakteristik data yang terjadi karena banyak amatan kelas mayoritas dan kelas minoritas tidak seimbang. Permasalahan tidak seimbangnya suatu data sering sekali ditemukan di berbagai bidang data. Makin besar nilai proporsi amatan kelas mayoritas dibandingkan kelas minoritas maka akan menghasilkan performa klasifikasi yang bias. Kombinasi dari permasalahan kelas tidak seimbang dengan ukuran kompleksitas lainnya akan membuat pemodelan akan makin sulit mendapatkan model yang baik. Sehingga, penelitian ini menggunakan empat teknik penyeimbangan kelas SMOTE ENN, SMOTE Tomek, SVM SMOTE dan K-means SMOTE sebagai teknik yang dapat memperbaiki ukuran kompleksitas dan meningkatkan performa model klasifikasi.
Penelitian ini bertujuan mengkaji penerapan empat teknik penyeimbangan kelas yang mengurangi ukuran kompleksitas data dan teknik terbaik yang menghasilkan performa klasifikasi yang baik. Tujuan lainnya adalah mengidentifikasi faktor-faktor yang memengaruhi status keberhasilan perbaikan ukuran kompleksitas pada data. Serta mengkaji teknik terbaik yang memberikan peningkatan performa klasifikasi. Data yang digunakan dalam penelitian ini adalah 46 gugus data publik, gugus data ini diukur kompleksitas datanya sebelum dan setelah penerapan teknik penyeimbangan kelas serta masing-masing gugus data di lakukan pengklasifikasian dengan model random forest. Data yang berasal dari pengukuran kompleksitas data akan digunakan sebagai perbandingan teknik penyeimbangan terbaik. Data ini juga akan digunakan sebagai peubah respon dalam pengidentifikasian faktor-faktor yang memengaruhi status keberhasilan perbaikan ukuran kompleksitas sebanyak 28 jenis perubahan sebagai peubah respon. Peubah prediktor yang digunakan adalah ukuran kompleksitas sebelum diterapkan teknik penyeimbangan kelas dan faktor lainnya yaitu imbalance rasio, banyak peubah prediktor numerik dan kategorik, serta banyak amatan.
Hasil perbandingan ukuran kompleksitas data memberikan informasi bahwa seluruh teknik berhasil menurunkan kompleksitas N1 dan T1. SMOTE ENN berhasil menurunkan kompleksitas T1 pada seluruh data. SVM SMOTE dan K-means SMOTE juga mampu menurunkan ukuran kompleksitas T2 pada seluruh data. Perbandingan ukuran kompleksitas dengan uji t didapatkan tiga teknik penyeimbangan memberikan pengaruh nyata pada ukuran kompleksitas N1, T1 dan T2 yaitu SMOTE Tomek, SVM SMOTE, K-means SMOTE. SMOTE ENN hanya berpengaruh nyata pada ukuran kompleksitas N1 dan T1 saja. Perbandingan performa random forest menghasilkan
dari empat teknik SMOTE ENN adalah teknik yang paling sedikit meningkatkan balance accuracy yang hanya 28 gugus data. SMOTE Tomek dan SVM SMOTE memberikan hasil yang sama yaitu 39 gugus data dan SVM SMOTE memperoleh 40 gugus data yang berhasil diperbaiki. Berdasarkan hasil perbandingan ukuran kompleksitas data dan kinerja klasifikasi SVM SMOTE adalah teknik penyeimbangan terbaik.
Identifikasi faktor-faktor yang berpengaruh terhadap status keberhasilan perbaikan ukuran kompleksitas menggunakan regresi logistik mendapatkan hasil dari 28 pemodelan hanya 8 model yang memberikan faktor yang signifikan. Faktor yang signifikan pada model-model tersebut kebanyakan adalah faktor yang dari ukuran kompleksitas sebelum penerapan teknik penyeimbangan kelas. Adapun faktor-faktor tersebut adalah T1, L2 dan T4. Faktor lainnya yang juga berpengaruh pada salah satu model adalah imbalance rasio dan banyak amatan pada data.
Simpulan yang didapatkan dari penelitian ini adalah penerapan teknik penyeimbangan kelas yang memberikan pengaruh pada tiga ukuran kompleksitas data N1, TI, dan T2 adalah SMOTE Tomek, SVM SMOTE dan K-means SMOTE. Teknik yang terbaik yang mampu menurunkan tiga jenis ukuran kompleksitas dan meningkatkan balance accuracy 40 dari 46 gugus data adalah SVM SMOTE. Sehingga, teknik terbaik yang mampu menurunkan dan meningkatkan balance accuracy adalah SVM SMOTE. Faktor-faktor yang signifikan memengaruhi status keberhasilan perbaikan ukuran kompleksitas adalah faktor-faktor ukuran kompleksitas sebelum penyeimbangan kelas yaitu T1, L2 dan T4. Classification problems are issues that arise in classification modelling and can impact the performance of classification modelling. These issues can be characterized by the characteristics of the data. The characteristics of the data can be quantified using a measure known as the data complexity measure. Data complexity measures include linear separation of observed classes, overlapping observed classes, data dimension, and data density. By measuring data complexity measures, it becomes easier to comprehend and make informed decisions based on the data analysis conducted, thus enabling the attainment of enhanced classification performance outcomes. One of the data characteristic problems that can arise is an unbalanced class. This occurs when there are a more significant number of observations of the majority class than of the minority class. The problem of unbalanced data is often found in various data fields. The more significant the proportion of majority class observations compared to the minority class, the more biased the classification performance will be. Combining the unbalanced class problem with other complexity measures will make modelling more difficult, as obtaining a good model will be more challenging. Consequently, this study employs four class balancing techniques, namely SMOTE ENN, SMOTE Tomek, SVM SMOTE and K-means SMOTE, which can enhance the complexity measure and the performance of classification models. This research study aims to examine the applicability of four class balancing techniques that reduce the complexity measure of the data and to identify the most effective technique that results in optimal classification performance. Another objective is to identify the factors that affect the changing status of the complexity measure on the data. Additionally, the study examines the optimal technique for achieving enhanced classification performance. The data employed in this study comprise 46 public datasets. These datasets will be evaluated for data complexity before and after the implementation of class balancing techniques and will be classified using a random forest model. The data complexity measure will be employed as a benchmark for evaluating the efficacy of the most effective balancing technique. The data will also be used as a response variable to identify factors that affect the succeed status of complexity measures. In total, 28 types of values will be used as response variables. The predictor variables employed in this study include the complexity measure before the class balancing technique is applied, the imbalance ratio, numerous numeric and categorical predictor variables, and a multitude of observations. In this reasearch the results of the data complexity measure comparison indicate that all techniques were effective in reducing the complexity of N1 and T1. The SMOTE ENN technique was capable of reducing the complexity of T1 across the entirety of the data set. Furthermore, SVM SMOTE and K-means SMOTE were also observed to reduce the complexity size of T2 on all data. A comparison of complexity measures by t-tests found that three techniques significantly affect complexity measures N1, T1, and T2, namely SMOTE Tomek, SVM SMOTE, and K-means SMOTE. ENN SMOTE only has a significant effect on complexity measures N1 and T1. The results indicated that three techniques, namely SMOTE Tomek, SVM SMOTE, and K-means SMOTE, had a significant effect on the complexity measures. The effect of SMOTE ENN on complexity measures N1 and T1 is statistically significant. A comparison of the performance of the random forest in the four SMOTE ENN techniques revealed that the technique had the most negligible impact on the balance accuracy of only 28 datasets. The results of the SMOTE Tomek and SVM SMOTE techniques were identical, with 39 datasets improved identified. The SVM SMOTE technique yielded 40 datasets that were successfully improved. The comparison results indicate that SVM SMOTE is the most effective technique for balancing the data, as evidenced by its superior performance regarding data complexity measures and classification accuracy. Identifying factors that affect the changing status of complexity measures was conducted using logistic regression. The 28 regression logistics models yielded and eight models provided significant factors. The significant factors in these models are predominantly factors from the complexity measure before applying the class balancing technique. The identified factors are T1, L2, and T4. In addition, the imbalance ratio and the number of observations in the data also influence the performance of the models above. The research's result is that the use of class balancing techniques SMOTE Tomek, SVM SMOTE, and K-means SMOTE impacts the three data complexity metrics, N1, TI, and T2. The most efficient technique for reducing the three different complexity measurements and raising the balance accuracy of 40 of 46 datasets is SVM SMOTE. Accordingly, SVM SMOTE is the best technique for reducing and increasing balancing accuracy. Complexity measure elements T1, L2, and T4 present the measurement before the class balancing and have a significant impact on the complexity measure succeed status. |
| URI: | http://repository.ipb.ac.id/handle/123456789/155377 |
| Appears in Collections: | MT - Mathematics and Natural Science |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| cover_G1501211039_5776d14a17cc4f55a38df02685cf2008.pdf | Cover | 562.47 kB | Adobe PDF | View/Open |
| fulltext_G1501211039_675eb36008b7415780184952a334ea0a.pdf Restricted Access | Fulltext | 2.8 MB | Adobe PDF | View/Open |
| lampiran_G1501211039_20ea2899983445c080bc99e6b713626d.pdf Restricted Access | Lampiran | 1.18 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.