dc.description.abstract | Metode prediktif merupakan metode data mining yang paling banyak
digunakan dan paling banyak menguntungkan. Klasifikasi adalah salah satu teknik
yang digunakan pada metode prediktif (Tuffery 2011). Salah satu isu penting yang
ada pada klasifikasi dan menjadi kajian yang banyak dipelajari oleh peneliti
adalah permasalahan data tidak seimbang. Data tidak seimbang adalah suatu
kondisi dimana jumlah contoh dari salah satu kelas jauh lebih banyak dari kelas
yang lain. Alasan buruknya kinerja metode klasifikasi biasa yang digunakan pada
data tidak seimbang adalah bahwa tujuan metode klasifikasi dalam
meminimumkan galat secara keseluruhan tidak dapat tercapai karena kelas
minoritas hanya sedikit memberikan kontribusi, selain itu keputusan akhir yang
dihasilkan tidak tepat karena terjadinya bias. Hal ini disebabkan oleh salah satu
kelas mendominasi dalam hal jumlah amatan.
Penelitian ini mengkaji salah satu metode oversampling yang dapat
dijadikan sebagai pilihan dalam menangani permasalahan data tidak seimbang.
Metode tersebut disebut safe-level SMOTE dan diperkenalkan oleh
Bunkhumpornpat et al. (2009). Ide dasar safe-level SMOTE merupakan
pengembangan dari metode SMOTE yang diperkenalkan oleh Chawla et al.
(2002). Metode safe-level SMOTE memiliki beberapa kriteria yang menentukan
data buatan dapat atau tidak dapat dibangkitkan. Kriteria tersebut dibentuk
berdasarkan berbagai kemungkinan nilai koefisien safe level ratio yang diperoleh
dan dapat menggambarkan berbagai kemungkinan posisi aman antara contoh
kelas minoritas dan tetangga terdekatnya. Ketika contoh kelas minoritas dan
tetangga terdekatnya berada di wilayah yang aman, maka data buatan tersebut
dapat dibangkitkan.
Data yang digunakan pada penelitian ini merupakan data simulasi yang
dirancang berdasarkan beberapa kriteria. Kriteria tersebut dibangun sedemikian
rupa untuk mengakomodir semua kemungkinan pencampuran data mayoritas dan
minoritas yang digambarkan melalui diagram pencar. Kriteria tersebut di
antaranya adalah proporsi ketidakseimbangan data mayoritas dan minoritas,
kondisi data mayoritas (tidak terpartisi) dan minoritas (tidak terpartisi dan
terpartisi), posisi data minoritas terhadap data mayoritas, dan jumlah tetangga
terdekat yang digunakan (k). Peubah yang digunakan meliputi peubah prediktor
X1 dan X2 yang bersifat kontinu dan peubah respon yang terdiri dari dua kelas.
Dengan mengombinasikan seluruh kriteria maka diperoleh sebanyak 120 data
simulasi. Metode klasifikasi yang digunakan pada penelitian ini adalah Support
Vector Machine (SVM) dengan fungsi kernel radial basis. Beberapa ukuran yang
digunakan untuk menggambarkan kinerja model klasifikasi SVM adalah presisi,
sensitifitas, dan F-measure.
Analisis yang dilakukan yaitu dengan melakukan uji t berpasangan pada
rata-rata F-measure. Alasan penggunaan uji t berpasangan adalah karena Fmeasure
yang diperoleh berasal dari data uji yang sama yang digunakan untuk
mengevaluasi model klasifikasi SVM yang mana terbentuk dari data latih yang
seimbang (hasil metode SMOTE dan safe-level SMOTE). Berdasarkan analisis
tersebut diperoleh kesimpulan mengenai kinerja metode SMOTE dan safe-level
SMOTE.
Berdasarkan hasil pengujian F-measure pada data minoritas yang tidak
terpartisi, yaitu pada posisi beririsan dan menumpuk, metode safe-level SMOTE
secara umum memberikan hasil yang lebih baik dibandingkan dengan metode
SMOTE. Pada data minoritas yang terletak terpisah dengan data mayoritas, hasil
menunjukkan bahwa kedua metode memberikan kinerja yang sama. Pada data
minoritas yang terpartisi, ketika partisi ke-1 amatan kelas minoritas terletak
beririsan atau menumpuk dengan data mayoritas, metode safe-level SMOTE
memberikan kinerja yang lebih baik dibandingkan dengan metode SMOTE. Hasil
tersebut berbeda ketika jumlah amatan kelas minoritas partisi ke-1 terletak
terpisah dengan data mayoritas, yaitu kedua metode oversampling memberikan
kinerja yang sama. Hal ini disebabkan oleh posisi terpisah memungkinkan data
buatan yang dibangkitkan berada cukup jauh dari data mayoritas sehingga
kemungkinan terjadinya kesalahan klasifikasi sangat kecil. | id |