Perbandingan Analisis Komponen Utama dengan Paradigma Pencilan Sel dan Pencilan Baris
Date
2024Author
Ardian, Maulana Rafi
Ardana, Ngakan Komang Kutha
Sumarno, Hadi
Metadata
Show full item recordAbstract
Big Data merupakan data berukuran besar yang volumenya akan terus bertambah dengan terdiri dari berbagai jenis data tertentu. Hal ini mengakibatkan kerumitan dalam mengolah data sehingga perlu adanya cara khusus dalam mengelola Big Data. Analisis Komponen Utama (AKU) adalah teknik yang digunakan untuk menyederhanakan suatu data. Penelitian ini membahas penerapan metode Analisis Komponen Utama (AKU) dalam tiga varian: AKU-Klasik, AKU-Klasik dengan deteksi pencilan menggunakan Detect Deviating Cells (DDC), dan AKU-Makro. Penelitian ini akan berfokus untuk mengevaluasi dan membandingkan ketahanan ketiga metode tersebut terhadap adanya pencilan sel dan pencilan baris dalam data dengan proporsi pencilan sebesar 0%, 5%, dan 10%. Analisis ini dilakukan dengan mengukur nilai eigen, variansi yang dijelaskan oleh komponen, serta proporsi kumulatif variansi yang dijelaskan oleh komponen utama dalam dataset. Analisis lebih lanjut pada nilai kumulatif variansi menunjukkan bahwa meskipun terjadi penurunan nilai eigen dengan peningkatan proporsi pencilan, AKU-Makro menunjukkan efektivitas lebih baik dibandingkan AKU-Klasik dan AKU-Klasik menggunakan DDC. Big Data is large-sized data whose volume continues to increase, consisting of various types of specific data. This results in complexity in data processing, requiring special methods to manage Big Data. Principal Component Analysis (PCA) is a technique used to simplify data. This research discusses the application of Principal Component Analysis (PCA) method in three variants: Classic PCA, Classic PCA with outlier detection using Detect Deviating Cells (DDC), and Macro PCA. This research will focus on evaluating and comparing the robustness of these three methods against cell outliers and row outliers in data with outlier proportions of 0%, 5%, and 10%. This analysis is conducted by measuring eigenvalues, variance explained by components, and cumulative proportion of variance explained by principal components in the dataset. Further analysis on cumulative variance values indicates that despite a decrease in eigenvalues with an increase in outlier proportions, Macro PCA demonstrates better effectiveness compared to Classic PCA and Classic PCA using DDC.
Collections
- UT - Mathematics [1431]