Perbandingan Metode Klasifikasi antara Soft Independent Modelling of Class Analogies (SIMCA) dan Robust SIMCA (RSIMCA) pada Data yang Mengandung Pencilan
View/ Open
Date
2018Author
Fauziyah, Anna
Sartono, Bagus
Soleh, Agus M
Metadata
Show full item recordAbstract
Analisis klasifikasi merupakan analisis yang memisahkan segugus objek atau
amatan dan mengalokasikan objek baru ke kelompok yang sudah didefinisikan
sebelumnya. Kelompok-kelompok yang terbentuk bersifat saling lepas, artinya
setiap amatan hanya dapat dimasukkan ke dalam salah satu kelompok saja. Hingga
saat ini, terdapat berbagai macam metode klasifikasi yang dikembangkan sesuai
dengan karakteristik data.
Soft Independent Modeling of Class Analogies (SIMCA) merupakan salah
satu metode klasifikasi pada analisis peubah ganda yang diperkenalkan pertama kali
pada tahun 1976 oleh Svante Wold. Metode tersebut merupakan metode yang pada
dasarnya menerapkan Analisis Komponen Utama (AKU) pada setiap grup. Namun
demikian, AKU yang didasarkan pada matriks ragam-peragam sangat sensitif
terhadap keberadaan pencilan sehingga Hubert et al. (2005) memperkenalkan
pendekatan Analisis Komponen Utama Kekar (Robust Principal Component
Analysis/AKU-K) yang menghasilkan komponen utama yang tidak dipengaruhi
oleh pencilan. Metode AKU-K menggunakan penduga ragam-peragam yang kekar
yaitu Determinan Ragam-Peragam Terkecil (MCD). Metode AKU-K digunakan
sebagai tahap awal metode klasifikasi SIMCA yang kemudian disebut Robust
SIMCA (RSIMCA) dan kemudian membangun aturan klasifikasi yang dapat
mendeteksi pencilan serta berperilaku stabil jika terdapat pencilan pada data.
Data pada penelitian ini terdiri dari data simulasi dan data terapan terkait
peringkat bank di Indonesia. Data simulasi terdiri dari 3 (tiga) skenario simulasi
yaitu skenario I, II, dan III yang disusun berdasarkan beberapa faktor tertentu.
Skenario simulasi I yaitu skenario dimana tidak ada pencilan yang
dikontaminasikan pada setiap kelompok (0% pencilan). Pada skenario II dibagi lagi
menjadi 3 (tiga) sub skenario yaitu II-A, II-B, dan II-C. Sub skenario tersebut
ditentukan berdasarkan kombinasi 3 faktor yaitu posisi pencilan (atas dan bawah),
jumlah persentase pencilan yang dikontaminasikan pada data pengamatan biasa
(1%, 2%, 3%, dan 5%), dan kombinasi jarak nilai tengah pencilan terhadap nilai
tengah pengamatan biasa pada masing-masing kelompok yaitu jauh-jauh (JJ),
dekat-dekat (DD), jauh-dekat (JD), dan dekat-jauh (DJ). Selanjutnya yaitu skenario
simulasi III dimana pencilan hanya terdapat pada kelompok 1 saja yang ditentukan
berdasarkan jumlah persentase pencilan yang dikontaminasikan pada data
pengamatan biasa (2%, 4%, dan 6%), dan kombinasi jarak nilai tengah pencilan
terhadap nilai tengah pengamatan biasa pada masing-masing kelompok (JJ, DD,
JD, dan DD).
Hasil simulasi menunjukkan bahwa rata-rata kesalahan klasifikasi dari
SIMCA pada data dengan Skenario I lebih kecil jika dibandingkan dengan rata-rata
kesalahan klasifikasi Skenaro II-A, II-B, dan II-C. Pada Skenario II-A, II-B, dan IIC
terlihat dipengaruhi oleh jauh dekatnya jarak nilai tengah pencilan terhadap
masing-masing kelompoknya baik untuk AK-1 maupun AK-2. Nilai rata-rata
kesalahan klasifikasi dari RSIMCA pada Skenario II-A, II-B, dan II-C cenderung
lebih besar dari nilai rata-rata kesalahan klasifikasi Skenario I. Hasil RSIMCA pada
Skenario II-A, II-B, dan II-C cenderung stabil dan lebih kecil jika dibandingkan
dengan SIMCA baik untuk AK-1 maupun AK-2. Selain itu, nilai rata-rata kesalahan
klasifikasi RSIMCA terlihat mengalami kenaikan seiring bertambahnya persentase
pencilan yang dikontaminasikan. Akan tetapi, kenaikan tersebut tidak signifikan
pada masing-masing rancangan. Hasil dari RSIMCA menunjukkan bahwa jauh
dekatnya posisi pencilan tidak terlalu berpengaruh terhadap rata-rata kesalahan
klasifikasi yang dihasilkan RSIMCA. Nilai rata-rata kesalahan klasifikasi dari
RSIMCA pada Skenario II-C cenderung lebih kecil jika dibandingkan dengan nilai
rata-rata kesalahan klasifikasi Skenario II-A dan II-B.
Pada Skenario III, hasil rata-rata kesalahan klasifikasi dari metode SIMCA
baik untuk AK-1 maupun AK-2 cenderung lebih kecil jika dibandingkan dengan
hasil pada Skenario I dan Skenario II. Hal tersebut menunjukkan bahwa pencilan
yang hanya dikontaminasikan pada kelompok 1 untuk Skenario III dengan posisi
pencilan yang ditempatkan di sebelah atas dan bawah dari nilai tengah kelompok 1
menjadi saling menghilangkan. Sedangkan rata-rata kesalahan klasifikasi yang
dihasilkan RSIMCA (AK-1 dan AK-2) pada Skenario III tidak jauh berbeda dengan
hasil pada Skenario I dan Skenario II dimana jauh dekatnya posisi pencilan tidak
terlalu berpengaruh terhadap rata-rata kesalahan klasifikasi.
Data terapan yang digunakan pada penelitian ini yaitu data peringkat bank di
Indonesia yang diperingkat oleh Pefindo yang terdiri dari 10 peubah dan 4
kelompok. Hasil analisis menunjukkan bahwa RSIMCA (AK-1 dan AK-2)
memiliki kemampuan yang lebih baik jika dibandingkan dengan SIMCA (AK-1
dan AK-2) dalam mengklasifikasikan data pengamatan. Hal tersebut terlihat dari
nilai kesalahan klasifikasi RSIMCA (AK-1 dan AK-2) yang lebih kecil jika
dibandingkan dengan kesalahan klasifikasi SIMCA (AK-1 dan AK-2). Selain itu,
hasil dari validasi silang juga menunjukkan hasil yang sama dimana RSIMCA
memiliki kemampuan yang lebih baik jika dibandingkan dengan SIMCA baik pada
AK-1 maupun AK-2.