View Item 
      •   IPB Repository
      • Dissertations and Theses
      • Master Theses
      • MT - School of Data Science, Mathematic and Informatics
      • View Item
      •   IPB Repository
      • Dissertations and Theses
      • Master Theses
      • MT - School of Data Science, Mathematic and Informatics
      • View Item
      JavaScript is disabled for your browser. Some features of this site may not work without it.

      Efektivitas Proyeksi Peubah Ganda dalam Menangani Salah Klasifikasi KNN dan Random Forest pada Data Tidak Seimbang

      Thumbnail
      View/Open
      Cover (629.4Kb)
      Fulltext (990.9Kb)
      Date
      2025
      Author
      Manurita, Elda
      Afendi, Farit Mochamad
      Kurnia, Anang
      Metadata
      Show full item record
      Abstract
      Principal Component Analysis (PCA) merupakan salah satu teknik proyeksi peubah ganda yang sering digunakan untuk mereduksi data berdimensi tinggi atau menangani permasalahan korelasi antar peubah penjelas. Beberapa penelitian menunjukkan bahwa PCA mampu meningkatkan kinerja klasifikasi. Kebaikan akurasi klasifikasi dipengaruhi oleh beberapa hal salah satunya adalah keseimbangan kelas. Pada umumnya, ketidakseimbangan kelas ditangani menggunakan pendekatan Synthetic Minority Oversampling Technique SMOTE. Meskipun demikian, PCA memiliki potensi kemampuan untuk memisahkan antar kelas melalui proyeksi peubah penjelas ke dalam komponen utama.Teknik proyeksi peubah ganda lain yang sering digunakan selain PCA adalah Partial Least Square (PLS), yang mentransformasikan peubah penjelas ke dalam komponen laten dengan mempertimbangkan hubungan peubah penjelas dengan peubah respon. Hasil klasifikasi juga dipengaruhi oleh salah satunya metode yang digunakan. K-Nearest Neighbors (KNN) merupakan metode klasifikasi yang rentan terhadap data dengan kelas tidak seimbang. Metode yang lebih tahan terhadap data tidak seimbang salah satunya adalah Random Forest. Penelitian ini dilakukan dengan tujuan mengevaluasi PCA dan PLS dalam meningkatkan kemampuan klasifikasi KNN dan Random Forest tanpa dilakukan penyeimbangan kelas amatan melainkan proyeksi peubah ganda. Penelitian ini dilakukan menggunakan enam gugus data dengan berbagai kriteria kondisi yang memungkinkan mempengaruhi hasil penelitian. Kriteria yang digunakan diantaranya tingkat korelasi dan tingkat ketidakseimbangan data. Tingkat korelasi antar peubah penjelas yang digunakan yaitu kelompok korelasi tinggi dan korelasi rendah. Tingkat ketidakseimbangan kelas dibagi menjadi extreme imbalanced, moderate imbalanced, dan balanced. Keenam data yang digunakan memenuhi seluruh kombinasi kriteria tersebut. Proyeksi peubah ganda PCA dan PLS secara umum mampu meningkatkan kemampuan klasifikasi KNN dan Random Forest pada data extreme imbalanced, walaupun dalam PCA diperlukan pemilihan komponen utama yang optimal untuk meningkatkan hasil klasifikasi. Data kategori moderate imbalanced dan balanced tidak mengalami peningkatan setelah dilakukan proyeksi peubah ganda PCA dan PLS. Selain itu, data dengan korelasi antar peubahnya tinggi mengalami peningkatan yang lebih tinggi dibandingkan dengan data dengan korelasi rendah. Evaluasi yang dilakukan pada penelitian ini menunjukkan proyeksi peubah ganda, cukup mampu meningkatkan kemampuan klasifikasi khususnya pada KNN dan data dengan korelasi antar peubahnya tinggi. Selain kondisi tersebut, proyeksi peubah ganda kurang mampu meningkatkan akurasi namun tetap stabil. Dengan demikian, PCA dan PLS dapat menjadi alternatif dalam menangani data tidak seimbang walaupun tidak sebaik SMOTE.
       
      Principal Component Analysis (PCA) is a widely applied multivariate projection technique commonly used for reducing high-dimensional data or correlations problems. Numerous studies incorporating PCA into classification modeling have reported improved performance. Classification accuracy itself is influenced by several factors, one of which is class balance. This issue is often mitigated by adjusting class frequencies using approaches such as Synthetic Minority Oversampling Technique (SMOTE). Nevertheless, PCA has the potential to enhance class separation by projecting the explanatory variables into a set of principal components. Another multivariate projection technique commonly used in addition to PCA is Partial Least Squares (PLS), which transforms the explanatory variables into latent components while explicitly accounting for the relationship between the predictors and the response variable. Classification performance is also affected by the choice of algorithm. K Nearest Neighbors (KNN) is notably susceptible to class imbalance, whereas Random Forest exhibits greater robustness under such conditions. Accordingly, this study aims to examine the extent to which PCA and PLS can improve the classification performance of KNN and Random Forest through predictor projection, without applying class-balancing techniques. This research was conducted using six datasets with various conditions that may influence the research outcomes. The criteria considered include the level of correlation and the degree of class imbalance. The correlation among explanatory variables was categorized into high-correlation and low-correlation groups. The degree of class imbalance was classified into extreme imbalanced, moderate imbalanced, and balanced categories. The six datasets used in this study represent all possible combinations of these criteria The multivariate projections using PCA and PLS generally improved the classification performance of KNN and Random Forest on extremely imbalanced datasets, although in the case of PCA, the selection of an optimal number of principal components was required to enhance classification results. For datasets with moderate imbalance and balanced class distributions, no improvement was observed after applying PCA and PLS projections. In addition, datasets with high correlations among explanatory variables exhibited greater performance improvements compared to those with low correlations. The evaluation conducted in this study indicates that multivariate variable projection is reasonably effective in improving classification performance, particularly for KNN and for datasets with high correlations among explanatory variables. Outside these conditions, multivariate projection was less effective in improving accuracy but still maintained stable performance. Therefore, PCA and PLS can serve as alternative approaches for handling imbalanced data, although their performance is not as effective as that of SMOTE.
       
      URI
      http://repository.ipb.ac.id/handle/123456789/171813
      Collections
      • MT - School of Data Science, Mathematic and Informatics [75]

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository
        

       

      Browse

      All of IPB RepositoryCollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

      My Account

      Login

      Application

      google store

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository