Evaluasi Kinerja Super Learner pada Data Tidak Seimbang dan Berbagai Tingkat Kerumitan Data
Abstract
Super learner merupakan model klasifikasi yang menggunakan teknik
ensemble dan teknik cross validation dalam proses pemodelannya. Penggunaan dua
teknik tersebut dipandang baik dalam menghasilkan model prediksi, sehingga dapat
dikatakan bahwa super learner merupakan model klasifikasi yang mempunyai
tingkat ketepatan prediksi yang baik. Kebaikan model klasifikasi tentu dipengaruhi
oleh
karakteristik data yang ingin dimodelkan. Karakteristik data dapat
dikelompokkan berdasarkan beberapa ukuran. Ukuran yang dimaksud adalah
ukuran kerumitan yang didasarkan oleh pengukuran kerumitan pada peubah respon,
peubah prediktor, maupun keduanya. Salah satu karakteristik data yang sering kali
dijadikan perhatian dalam pemodelan klasifikasi adalah ketidakseimbangan kelas
pada peubah respon.
Ukuran ketidakseimbangan kelas sangat mempengaruhi kebaikan model
klasifikasi. Hal ini dikarenakan algortima model-model klasifikasi dapat
menghasilkan model yang baik ketika dihadapkan pada data dengan kelas yang
cenderung seimbang. Data dengan kelas yang tidak seimbang mempunyai dua
kelompok kelas respon, yakni kelompok kelas mayoritas dan kelompok kelas
minoritas. Model-model klasifikasi sering kali mengalami kesulitan dalam
memprediksi dengan tepat kelompok kelas minoritas, sehingga data dengan ukuran
kerumitan ketidakseimbangan kelas yang ekstrim membutuhkan model atau
penanganan yang sesuai. Selain ukuran ketidakseimbangan kelas pada peubah
respon, terdapat lima ukuran kerumitan lainnya yang menjadi perhatian dalam
penelitian ini, diantaranya feature based-measures, measures of linearity,
neighbourhood measures, network measures, dan dimensionality measures.
Keenam jenis ukuran kerumitan tersebut diteliti pengaruhnya terhadap model
klasifikasi super learner yang dipandang mempunyai kemampuan yang baik dalam
menghasilkan model prediksi. Data yang digunakan pada penelitian ini terdiri dari
tujuh data yang kemudian dilakukan pengubahan proporsi kelas menjadi 70:30,
20, dan 90:10. Pengubahan ini dimaksudkan untuk melihat kemampuan dari
model super learner pada berbagai tingkat ketidakseimbangan data.
Berdasarkan ukuran kebaikan model akurasi, sensitivitas, spesifisitas, dan
akurasi seimbang, model super learner mengalami penurunan kemampuan pada
setiap kenaikan tingkat ketidakseimbangan kelas. Penurunan ukuran kebaikan
model yang nyata terlihat pada pengubahan proporsi dari 70:30 menjadi 80:20 dan
10, sehingga dapat dikatakan bahwa model super learner belum mampu
menghasilkan model prediksi yang tepat pada data dengan tingkat
ketidakseimbangan kelas yang ekstrim. Hubungan keenam ukuran kerumitan
dengan ukuran kebaikan model akurasi seimbang diukur dengan menggunakan nilai
korelasi Pearson. Berdasarkan nilai korelasi Pearson, terdapat dua jenis hubungan,
yakni hubungan yang searah dan hubungan yang tidak searah. Hubungan searah
yang nyata ditunjukkan oleh ukuran kerumitan entropy of class proportions (C1),
score (Hubs), non-linearity of the nearest neighbor classifier (N4), average
number of features per dimension (T2), dan collective feature efficiency (F4),
AN
Tid
SAR
ens
tekn
dik
ting
dik
uku
peu
dija
pad
klas
men
cen
kelo
min
mem
keru
pen
resp
pen
neig
Kee
klas
men
tuju
80:2
mo
aku
seti
mo
90:
men
keti
den
kor
yak
yan
hub
num
sedangkan hubungan yang tidak searah yang nyata ditunjukkan oleh ukuran
kerumitan ratio of intra/extra class nearest neighbor distance (N2), maximum
Fisher’s discriminant ratio (F1), clustering coefficient (ClsCoef), imbalance ratio
(C2), ratio of the PCA dimension to the original dimension (T4), non-linearity of a
linear classifier (L3), fraction of hyperspheres covering data (T1), dan maximum
individual feature efficiency (F3).