Evaluasi Kinerja Super Learner pada Data Tidak Seimbang dan Berbagai Tingkat Kerumitan Data

Primariesty, Anindya Diva

View/Open

Cover (387.6Kb)

Fullteks (2.647Mb)

Lampiran (223.8Kb)

Date

2021

Author

Primariesty, Anindya Diva

Sartono, Bagus

Annisa

Metadata

Show full item record

Abstract

Super learner merupakan model klasifikasi yang menggunakan teknik ensemble dan teknik cross validation dalam proses pemodelannya. Penggunaan dua teknik tersebut dipandang baik dalam menghasilkan model prediksi, sehingga dapat dikatakan bahwa super learner merupakan model klasifikasi yang mempunyai tingkat ketepatan prediksi yang baik. Kebaikan model klasifikasi tentu dipengaruhi oleh karakteristik data yang ingin dimodelkan. Karakteristik data dapat dikelompokkan berdasarkan beberapa ukuran. Ukuran yang dimaksud adalah ukuran kerumitan yang didasarkan oleh pengukuran kerumitan pada peubah respon, peubah prediktor, maupun keduanya. Salah satu karakteristik data yang sering kali dijadikan perhatian dalam pemodelan klasifikasi adalah ketidakseimbangan kelas pada peubah respon. Ukuran ketidakseimbangan kelas sangat mempengaruhi kebaikan model klasifikasi. Hal ini dikarenakan algortima model-model klasifikasi dapat menghasilkan model yang baik ketika dihadapkan pada data dengan kelas yang cenderung seimbang. Data dengan kelas yang tidak seimbang mempunyai dua kelompok kelas respon, yakni kelompok kelas mayoritas dan kelompok kelas minoritas. Model-model klasifikasi sering kali mengalami kesulitan dalam memprediksi dengan tepat kelompok kelas minoritas, sehingga data dengan ukuran kerumitan ketidakseimbangan kelas yang ekstrim membutuhkan model atau penanganan yang sesuai. Selain ukuran ketidakseimbangan kelas pada peubah respon, terdapat lima ukuran kerumitan lainnya yang menjadi perhatian dalam penelitian ini, diantaranya feature based-measures, measures of linearity, neighbourhood measures, network measures, dan dimensionality measures. Keenam jenis ukuran kerumitan tersebut diteliti pengaruhnya terhadap model klasifikasi super learner yang dipandang mempunyai kemampuan yang baik dalam menghasilkan model prediksi. Data yang digunakan pada penelitian ini terdiri dari tujuh data yang kemudian dilakukan pengubahan proporsi kelas menjadi 70:30, 20, dan 90:10. Pengubahan ini dimaksudkan untuk melihat kemampuan dari model super learner pada berbagai tingkat ketidakseimbangan data. Berdasarkan ukuran kebaikan model akurasi, sensitivitas, spesifisitas, dan akurasi seimbang, model super learner mengalami penurunan kemampuan pada setiap kenaikan tingkat ketidakseimbangan kelas. Penurunan ukuran kebaikan model yang nyata terlihat pada pengubahan proporsi dari 70:30 menjadi 80:20 dan 10, sehingga dapat dikatakan bahwa model super learner belum mampu menghasilkan model prediksi yang tepat pada data dengan tingkat ketidakseimbangan kelas yang ekstrim. Hubungan keenam ukuran kerumitan dengan ukuran kebaikan model akurasi seimbang diukur dengan menggunakan nilai korelasi Pearson. Berdasarkan nilai korelasi Pearson, terdapat dua jenis hubungan, yakni hubungan yang searah dan hubungan yang tidak searah. Hubungan searah yang nyata ditunjukkan oleh ukuran kerumitan entropy of class proportions (C1), score (Hubs), non-linearity of the nearest neighbor classifier (N4), average number of features per dimension (T2), dan collective feature efficiency (F4), AN Tid SAR ens tekn dik ting dik uku peu dija pad klas men cen kelo min mem keru pen resp pen neig Kee klas men tuju 80:2 mo aku seti mo 90: men keti den kor yak yan hub num sedangkan hubungan yang tidak searah yang nyata ditunjukkan oleh ukuran kerumitan ratio of intra/extra class nearest neighbor distance (N2), maximum Fisher’s discriminant ratio (F1), clustering coefficient (ClsCoef), imbalance ratio (C2), ratio of the PCA dimension to the original dimension (T4), non-linearity of a linear classifier (L3), fraction of hyperspheres covering data (T1), dan maximum individual feature efficiency (F3).

URI

http://repository.ipb.ac.id/handle/123456789/110520

Collections

MT - Mathematics and Natural Science [4149]