Perbandingan Metode Klasifikasi antara Soft Independent Modelling of Class Analogies (SIMCA) dan Robust SIMCA (RSIMCA) pada Data yang Mengandung Pencilan

Fauziyah, Anna

View/Open

Fulltext (18.39Mb)

Date

2018

Author

Fauziyah, Anna

Sartono, Bagus

Soleh, Agus M

Metadata

Show full item record

Abstract

Analisis klasifikasi merupakan analisis yang memisahkan segugus objek atau amatan dan mengalokasikan objek baru ke kelompok yang sudah didefinisikan sebelumnya. Kelompok-kelompok yang terbentuk bersifat saling lepas, artinya setiap amatan hanya dapat dimasukkan ke dalam salah satu kelompok saja. Hingga saat ini, terdapat berbagai macam metode klasifikasi yang dikembangkan sesuai dengan karakteristik data. Soft Independent Modeling of Class Analogies (SIMCA) merupakan salah satu metode klasifikasi pada analisis peubah ganda yang diperkenalkan pertama kali pada tahun 1976 oleh Svante Wold. Metode tersebut merupakan metode yang pada dasarnya menerapkan Analisis Komponen Utama (AKU) pada setiap grup. Namun demikian, AKU yang didasarkan pada matriks ragam-peragam sangat sensitif terhadap keberadaan pencilan sehingga Hubert et al. (2005) memperkenalkan pendekatan Analisis Komponen Utama Kekar (Robust Principal Component Analysis/AKU-K) yang menghasilkan komponen utama yang tidak dipengaruhi oleh pencilan. Metode AKU-K menggunakan penduga ragam-peragam yang kekar yaitu Determinan Ragam-Peragam Terkecil (MCD). Metode AKU-K digunakan sebagai tahap awal metode klasifikasi SIMCA yang kemudian disebut Robust SIMCA (RSIMCA) dan kemudian membangun aturan klasifikasi yang dapat mendeteksi pencilan serta berperilaku stabil jika terdapat pencilan pada data. Data pada penelitian ini terdiri dari data simulasi dan data terapan terkait peringkat bank di Indonesia. Data simulasi terdiri dari 3 (tiga) skenario simulasi yaitu skenario I, II, dan III yang disusun berdasarkan beberapa faktor tertentu. Skenario simulasi I yaitu skenario dimana tidak ada pencilan yang dikontaminasikan pada setiap kelompok (0% pencilan). Pada skenario II dibagi lagi menjadi 3 (tiga) sub skenario yaitu II-A, II-B, dan II-C. Sub skenario tersebut ditentukan berdasarkan kombinasi 3 faktor yaitu posisi pencilan (atas dan bawah), jumlah persentase pencilan yang dikontaminasikan pada data pengamatan biasa (1%, 2%, 3%, dan 5%), dan kombinasi jarak nilai tengah pencilan terhadap nilai tengah pengamatan biasa pada masing-masing kelompok yaitu jauh-jauh (JJ), dekat-dekat (DD), jauh-dekat (JD), dan dekat-jauh (DJ). Selanjutnya yaitu skenario simulasi III dimana pencilan hanya terdapat pada kelompok 1 saja yang ditentukan berdasarkan jumlah persentase pencilan yang dikontaminasikan pada data pengamatan biasa (2%, 4%, dan 6%), dan kombinasi jarak nilai tengah pencilan terhadap nilai tengah pengamatan biasa pada masing-masing kelompok (JJ, DD, JD, dan DD). Hasil simulasi menunjukkan bahwa rata-rata kesalahan klasifikasi dari SIMCA pada data dengan Skenario I lebih kecil jika dibandingkan dengan rata-rata kesalahan klasifikasi Skenaro II-A, II-B, dan II-C. Pada Skenario II-A, II-B, dan IIC terlihat dipengaruhi oleh jauh dekatnya jarak nilai tengah pencilan terhadap masing-masing kelompoknya baik untuk AK-1 maupun AK-2. Nilai rata-rata kesalahan klasifikasi dari RSIMCA pada Skenario II-A, II-B, dan II-C cenderung lebih besar dari nilai rata-rata kesalahan klasifikasi Skenario I. Hasil RSIMCA pada Skenario II-A, II-B, dan II-C cenderung stabil dan lebih kecil jika dibandingkan dengan SIMCA baik untuk AK-1 maupun AK-2. Selain itu, nilai rata-rata kesalahan klasifikasi RSIMCA terlihat mengalami kenaikan seiring bertambahnya persentase pencilan yang dikontaminasikan. Akan tetapi, kenaikan tersebut tidak signifikan pada masing-masing rancangan. Hasil dari RSIMCA menunjukkan bahwa jauh dekatnya posisi pencilan tidak terlalu berpengaruh terhadap rata-rata kesalahan klasifikasi yang dihasilkan RSIMCA. Nilai rata-rata kesalahan klasifikasi dari RSIMCA pada Skenario II-C cenderung lebih kecil jika dibandingkan dengan nilai rata-rata kesalahan klasifikasi Skenario II-A dan II-B. Pada Skenario III, hasil rata-rata kesalahan klasifikasi dari metode SIMCA baik untuk AK-1 maupun AK-2 cenderung lebih kecil jika dibandingkan dengan hasil pada Skenario I dan Skenario II. Hal tersebut menunjukkan bahwa pencilan yang hanya dikontaminasikan pada kelompok 1 untuk Skenario III dengan posisi pencilan yang ditempatkan di sebelah atas dan bawah dari nilai tengah kelompok 1 menjadi saling menghilangkan. Sedangkan rata-rata kesalahan klasifikasi yang dihasilkan RSIMCA (AK-1 dan AK-2) pada Skenario III tidak jauh berbeda dengan hasil pada Skenario I dan Skenario II dimana jauh dekatnya posisi pencilan tidak terlalu berpengaruh terhadap rata-rata kesalahan klasifikasi. Data terapan yang digunakan pada penelitian ini yaitu data peringkat bank di Indonesia yang diperingkat oleh Pefindo yang terdiri dari 10 peubah dan 4 kelompok. Hasil analisis menunjukkan bahwa RSIMCA (AK-1 dan AK-2) memiliki kemampuan yang lebih baik jika dibandingkan dengan SIMCA (AK-1 dan AK-2) dalam mengklasifikasikan data pengamatan. Hal tersebut terlihat dari nilai kesalahan klasifikasi RSIMCA (AK-1 dan AK-2) yang lebih kecil jika dibandingkan dengan kesalahan klasifikasi SIMCA (AK-1 dan AK-2). Selain itu, hasil dari validasi silang juga menunjukkan hasil yang sama dimana RSIMCA memiliki kemampuan yang lebih baik jika dibandingkan dengan SIMCA baik pada AK-1 maupun AK-2.

URI

http://repository.ipb.ac.id/handle/123456789/93939

Collections

MT - Mathematics and Natural Science [4152]