Implementasi Analisis Komponen Utama dengan Paradigma Pencilan Sel
Date
2021Author
Sander, Alex
Ardana, Ngakan Komang Kutha
Sumarno, Hadi
Metadata
Show full item recordAbstract
Data berukuran besar merupakan salah satu ciri penting dalam mengolah informasi pada era modern ini. Istilah "Big Data" mengacu pada kumpulan data yang memiliki ukuran sangat besar, rumit, dan tidak dapat dikelola dengan cara yang biasa. Saat ini pengolahan data semakin bervariasi dan memerlukan penanganan khusus, baik dalam proses analisis maupun visualisasi. Analisis Komponen Utama adalah metode statistika yang mampu mereduksi dimensi data dari kumpulan variabel yang saling berkorelasi menjadi kumpulan variabel baru yang kecil dengan tetap mempertahankan sebanyak mungkin keragaman data. Proses analisis ini bertujuan untuk mereduksi dimensi data menggunakan Analisis Komponen Utama Klasik (AKU-K) dan Missingness and Cellwise and Rowwise Outliers PCA (MacroPCA, AKU-Macro) yang robust terhadap pencilan. Karya ilmiah ini difokuskan pada pencilan sel menggunakan metode Detect Deviating Cells (DDC) - sebuah metode yang dapat mengidentifikasi pencilan sel pada suatu matriks data. Berdasarkan ukuran kesesuaian dalam menganalisis komponen utama, AKU-Macro lebih baik dibandingkan AKU-K. Selain itu berdasarkan plot tebaran distance score dan orthogonal distance, AKU-Macro lebih efektif dalam menangani pencilan dibandingkan dengan AKU-K. Large data is one of the important characteristics in processing information in this modern era. The term "Big Data" refers to datasets that are very large, complex, and cannot be managed in the usual way. Currently, data processing is increasingly varied and requires special handling, both in the analysis and visualization processes. Principal Component Analysis is a statistical method that is able to reduce the dimensions of data from a collection of correlated variables into a new, small set of variables while maintaining as much variance as possible. This analysis aims to reduce the dimensions of the data using Classical Principal Component Analysis (classical PCA) and Missingness and Cellwise and Rowwise Outlier PCA (MacroPCA). This scientific work is focused on cellwise outliers using the Detect Deviating Cells (DDC) method - a method that can identify cellwise outliers in a data matrix. Based on the suitability measure in analyzing the main components, Macro PCA is better than classical PCA. In addition, based on the scatter plot of score distance and orthogonal distance, Macro PCA is more effective in dealing with outliers than classical PCA.
Collections
- UT - Mathematics [1365]