Kajian Metode Safe-Level SMOTE pada Kasus Klasifikasi Data Tidak Seimbang

Meidianingsih, Qorry

dc.contributor.advisor	Erfiani
dc.contributor.advisor	Sartono, Bagus
dc.contributor.author	Meidianingsih, Qorry
dc.date.accessioned	2018-01-08T04:59:21Z
dc.date.available	2018-01-08T04:59:21Z
dc.date.issued	2017
dc.identifier.uri	http://repository.ipb.ac.id/handle/123456789/88612
dc.description.abstract	Metode prediktif merupakan metode data mining yang paling banyak digunakan dan paling banyak menguntungkan. Klasifikasi adalah salah satu teknik yang digunakan pada metode prediktif (Tuffery 2011). Salah satu isu penting yang ada pada klasifikasi dan menjadi kajian yang banyak dipelajari oleh peneliti adalah permasalahan data tidak seimbang. Data tidak seimbang adalah suatu kondisi dimana jumlah contoh dari salah satu kelas jauh lebih banyak dari kelas yang lain. Alasan buruknya kinerja metode klasifikasi biasa yang digunakan pada data tidak seimbang adalah bahwa tujuan metode klasifikasi dalam meminimumkan galat secara keseluruhan tidak dapat tercapai karena kelas minoritas hanya sedikit memberikan kontribusi, selain itu keputusan akhir yang dihasilkan tidak tepat karena terjadinya bias. Hal ini disebabkan oleh salah satu kelas mendominasi dalam hal jumlah amatan. Penelitian ini mengkaji salah satu metode oversampling yang dapat dijadikan sebagai pilihan dalam menangani permasalahan data tidak seimbang. Metode tersebut disebut safe-level SMOTE dan diperkenalkan oleh Bunkhumpornpat et al. (2009). Ide dasar safe-level SMOTE merupakan pengembangan dari metode SMOTE yang diperkenalkan oleh Chawla et al. (2002). Metode safe-level SMOTE memiliki beberapa kriteria yang menentukan data buatan dapat atau tidak dapat dibangkitkan. Kriteria tersebut dibentuk berdasarkan berbagai kemungkinan nilai koefisien safe level ratio yang diperoleh dan dapat menggambarkan berbagai kemungkinan posisi aman antara contoh kelas minoritas dan tetangga terdekatnya. Ketika contoh kelas minoritas dan tetangga terdekatnya berada di wilayah yang aman, maka data buatan tersebut dapat dibangkitkan. Data yang digunakan pada penelitian ini merupakan data simulasi yang dirancang berdasarkan beberapa kriteria. Kriteria tersebut dibangun sedemikian rupa untuk mengakomodir semua kemungkinan pencampuran data mayoritas dan minoritas yang digambarkan melalui diagram pencar. Kriteria tersebut di antaranya adalah proporsi ketidakseimbangan data mayoritas dan minoritas, kondisi data mayoritas (tidak terpartisi) dan minoritas (tidak terpartisi dan terpartisi), posisi data minoritas terhadap data mayoritas, dan jumlah tetangga terdekat yang digunakan (k). Peubah yang digunakan meliputi peubah prediktor X1 dan X2 yang bersifat kontinu dan peubah respon yang terdiri dari dua kelas. Dengan mengombinasikan seluruh kriteria maka diperoleh sebanyak 120 data simulasi. Metode klasifikasi yang digunakan pada penelitian ini adalah Support Vector Machine (SVM) dengan fungsi kernel radial basis. Beberapa ukuran yang digunakan untuk menggambarkan kinerja model klasifikasi SVM adalah presisi, sensitifitas, dan F-measure. Analisis yang dilakukan yaitu dengan melakukan uji t berpasangan pada rata-rata F-measure. Alasan penggunaan uji t berpasangan adalah karena Fmeasure yang diperoleh berasal dari data uji yang sama yang digunakan untuk mengevaluasi model klasifikasi SVM yang mana terbentuk dari data latih yang seimbang (hasil metode SMOTE dan safe-level SMOTE). Berdasarkan analisis tersebut diperoleh kesimpulan mengenai kinerja metode SMOTE dan safe-level SMOTE. Berdasarkan hasil pengujian F-measure pada data minoritas yang tidak terpartisi, yaitu pada posisi beririsan dan menumpuk, metode safe-level SMOTE secara umum memberikan hasil yang lebih baik dibandingkan dengan metode SMOTE. Pada data minoritas yang terletak terpisah dengan data mayoritas, hasil menunjukkan bahwa kedua metode memberikan kinerja yang sama. Pada data minoritas yang terpartisi, ketika partisi ke-1 amatan kelas minoritas terletak beririsan atau menumpuk dengan data mayoritas, metode safe-level SMOTE memberikan kinerja yang lebih baik dibandingkan dengan metode SMOTE. Hasil tersebut berbeda ketika jumlah amatan kelas minoritas partisi ke-1 terletak terpisah dengan data mayoritas, yaitu kedua metode oversampling memberikan kinerja yang sama. Hal ini disebabkan oleh posisi terpisah memungkinkan data buatan yang dibangkitkan berada cukup jauh dari data mayoritas sehingga kemungkinan terjadinya kesalahan klasifikasi sangat kecil.	id
dc.language.iso	id	id
dc.publisher	Bogor Agricultural University (IPB)	id
dc.subject.ddc	Statistics	id
dc.subject.ddc	Statistical methods	id
dc.subject.ddc	2017	id
dc.subject.ddc	Bogor-JABAR	id
dc.title	Kajian Metode Safe-Level SMOTE pada Kasus Klasifikasi Data Tidak Seimbang	id
dc.type	Thesis	id
dc.subject.keyword	data tidak seimbang	id
dc.subject.keyword	oversampling	id
dc.subject.keyword	SMOTE	id
dc.subject.keyword	safe-level SMOTE	id
dc.subject.keyword	support vector machine (SVM)	id
dc.subject.keyword	F-measure	id

Files in this item

Name:: 2017qme.pdf
Size:: 24.25Mb
Format:: PDF
Description:: Fulltext

View/Open

This item appears in the following Collection(s)

MT - Mathematics and Natural Science [4162]

Show simple item record