Analisis Teknik Resampling Menggunakan Synthetic Minority Oversampling Technique (SMOTE) untuk Melatih Support Vector Machine (SVM)
Abstract
Dataset yang memiliki distribusi kelas tidak seimbang dapat mengganggu proses pelatihan model untuk klasifikasi. Secara umum, permasalahan imbalanced data bisa diselesaikan dengan dua pendekatan, yaitu: pendekatan pada level algoritme dan level data. Penelitian ini menggunakan pendekatan pada level data untuk menganalisis data DNA kedelai kromosom 11 (Gm11) dan 16 (Gm16) menggunakan Synthetic Minority Oversampling Technique (SMOTE). Algoritme klasifikasi yang digunakan adalah Support Vector Machine (SVM). Proses penyeimbangan data difokuskan pada data di sekitar hyperplane SVM. Selanjutnya, data ini disebut sebagai data kritis. Evaluasi pada data Gm11 menunjukkan bahwa nilai f-measure mengalami penurunan. Model yang dilatih menggunakan data latih yang tidak seimbang memiliki f-measure 56.68%, sedangkan model yang dilatih menggunakan data kritis memiliki nilai f-measure 49.61%. Sebaliknya, pada Gm16 terdapat peningkatan antara model yang dilatih menggunakan data latih tidak seimbang dan data kritis. Peningkatannya adalah 60.34% menjadi 62.22%. Berdasarkan evaluasi tersebut, dapat disimpulkan bahwa teknik resampling pada data kritis dapat meningkatkan kinerja model SVM.
Collections
- UT - Computer Science [2335]