Efektivitas Proyeksi Peubah Ganda dalam Menangani Salah Klasifikasi KNN dan Random Forest pada Data Tidak Seimbang
Abstract
Principal Component Analysis (PCA) merupakan salah satu teknik proyeksi
peubah ganda yang sering digunakan untuk mereduksi data berdimensi tinggi atau
menangani permasalahan korelasi antar peubah penjelas. Beberapa penelitian
menunjukkan bahwa PCA mampu meningkatkan kinerja klasifikasi. Kebaikan
akurasi klasifikasi dipengaruhi oleh beberapa hal salah satunya adalah
keseimbangan kelas. Pada umumnya, ketidakseimbangan kelas ditangani
menggunakan pendekatan Synthetic Minority Oversampling Technique SMOTE.
Meskipun demikian, PCA memiliki potensi kemampuan untuk memisahkan antar
kelas melalui proyeksi peubah penjelas ke dalam komponen utama.Teknik proyeksi
peubah ganda lain yang sering digunakan selain PCA adalah Partial Least Square
(PLS), yang mentransformasikan peubah penjelas ke dalam komponen laten dengan
mempertimbangkan hubungan peubah penjelas dengan peubah respon.
Hasil klasifikasi juga dipengaruhi oleh salah satunya metode yang
digunakan. K-Nearest Neighbors (KNN) merupakan metode klasifikasi yang rentan
terhadap data dengan kelas tidak seimbang. Metode yang lebih tahan terhadap data
tidak seimbang salah satunya adalah Random Forest. Penelitian ini dilakukan
dengan tujuan mengevaluasi PCA dan PLS dalam meningkatkan kemampuan
klasifikasi KNN dan Random Forest tanpa dilakukan penyeimbangan kelas amatan
melainkan proyeksi peubah ganda.
Penelitian ini dilakukan menggunakan enam gugus data dengan berbagai
kriteria kondisi yang memungkinkan mempengaruhi hasil penelitian. Kriteria yang
digunakan diantaranya tingkat korelasi dan tingkat ketidakseimbangan data.
Tingkat korelasi antar peubah penjelas yang digunakan yaitu kelompok korelasi
tinggi dan korelasi rendah. Tingkat ketidakseimbangan kelas dibagi menjadi
extreme imbalanced, moderate imbalanced, dan balanced. Keenam data yang
digunakan memenuhi seluruh kombinasi kriteria tersebut.
Proyeksi peubah ganda PCA dan PLS secara umum mampu meningkatkan
kemampuan klasifikasi KNN dan Random Forest pada data extreme imbalanced,
walaupun dalam PCA diperlukan pemilihan komponen utama yang optimal untuk
meningkatkan hasil klasifikasi. Data kategori moderate imbalanced dan balanced
tidak mengalami peningkatan setelah dilakukan proyeksi peubah ganda PCA dan
PLS. Selain itu, data dengan korelasi antar peubahnya tinggi mengalami
peningkatan yang lebih tinggi dibandingkan dengan data dengan korelasi rendah.
Evaluasi yang dilakukan pada penelitian ini menunjukkan proyeksi peubah
ganda, cukup mampu meningkatkan kemampuan klasifikasi khususnya pada KNN
dan data dengan korelasi antar peubahnya tinggi. Selain kondisi tersebut, proyeksi
peubah ganda kurang mampu meningkatkan akurasi namun tetap stabil. Dengan
demikian, PCA dan PLS dapat menjadi alternatif dalam menangani data tidak
seimbang walaupun tidak sebaik SMOTE. Principal Component Analysis (PCA) is a widely applied multivariate
projection technique commonly used for reducing high-dimensional data or
correlations problems. Numerous studies incorporating PCA into classification
modeling have reported improved performance. Classification accuracy itself is
influenced by several factors, one of which is class balance. This issue is often
mitigated by adjusting class frequencies using approaches such as Synthetic
Minority Oversampling Technique (SMOTE). Nevertheless, PCA has the potential
to enhance class separation by projecting the explanatory variables into a set of
principal components. Another multivariate projection technique commonly used
in addition to PCA is Partial Least Squares (PLS), which transforms the explanatory
variables into latent components while explicitly accounting for the relationship
between the predictors and the response variable.
Classification performance is also affected by the choice of algorithm. K
Nearest Neighbors (KNN) is notably susceptible to class imbalance, whereas
Random Forest exhibits greater robustness under such conditions. Accordingly, this
study aims to examine the extent to which PCA and PLS can improve the
classification performance of KNN and Random Forest through predictor
projection, without applying class-balancing techniques.
This research was conducted using six datasets with various conditions that
may influence the research outcomes. The criteria considered include the level of
correlation and the degree of class imbalance. The correlation among explanatory
variables was categorized into high-correlation and low-correlation groups. The
degree of class imbalance was classified into extreme imbalanced, moderate
imbalanced, and balanced categories. The six datasets used in this study represent
all possible combinations of these criteria
The multivariate projections using PCA and PLS generally improved the
classification performance of KNN and Random Forest on extremely imbalanced
datasets, although in the case of PCA, the selection of an optimal number of
principal components was required to enhance classification results. For datasets
with moderate imbalance and balanced class distributions, no improvement was
observed after applying PCA and PLS projections. In addition, datasets with high
correlations among explanatory variables exhibited greater performance
improvements compared to those with low correlations.
The evaluation conducted in this study indicates that multivariate variable
projection is reasonably effective in improving classification performance,
particularly for KNN and for datasets with high correlations among explanatory
variables. Outside these conditions, multivariate projection was less effective in
improving accuracy but still maintained stable performance. Therefore, PCA and
PLS can serve as alternative approaches for handling imbalanced data, although
their performance is not as effective as that of SMOTE.
