Penanganan Imbalance Data Pada Klasifikasi SMS Spam dengan Synthetic Minority Oversampling Technique
Date
2024Author
Chrysanti, Rachma
Wijaya, Sony Hartono
Haryanto, Toto
Metadata
Show full item recordAbstract
Short Message Service (SMS) merupakan media komunikasi yang banyak digunakan. Meningkatnya penggunaan SMS mengakibatkan munculnya SMS spam yang seringkali mengganggu kenyamanan pengguna. Pengembangan model klasifikasi dianggap perlu dan dapat dijadikan sebagai solusi penyaringan SMS spam untuk mengurangi rasa ketidaknyamanan pengguna ponsel akibat SMS spam.
Untuk mengatasi masalah ini dikembangkan model klasifikasi dengan menggunakan algoritma machine learning dengan teknik seleksi fitur Chi-square dan Information Gain. Metode klasifikasi yang digunakan adalah Naive Bayes dan Support Vector Machine (SVM). Ditemukan data yang tidak seimbang ketika proses pemodelan, sehingga dilakukan sebuah teknik penyeimbangan data Synthetic Minority Oversampling Technique (SMOTE) dalam penelitian. Penelitian ini fokus pada hasil evaluasi model dari metode yang dilakukan. Ada empat metode yaitu pemodelan klasifikasi saja, pemodelan klasifikasi dengan seleksi fitur, pemodelan klasifikasi dengan SMOTE, pemodelan klasifikasi dengan SMOTE dan seleksi fitur. Penelitian ini juga memberikan informasi mengenai durasi waktu komputasi terbaik dalam melakukan berbagai metode klasifikasi yang telah dilakukan.
Penggunaan SMOTE dalam klasifikasi SMS spam memberikan pengaruh yang sangat baik, di antaranya mampu meningkatkan performa dengan membuat data sintetis pada kelas minoritas supaya memiliki jumlah yang seimbang dengan kelas mayoritas. Hal ini memengaruhi prediksi dalam masing – masing kelas baik spam maupun non spam. Penerapan teknik oversampling SMOTE terbukti meningkatkan kinerja model. Tingkat akurasi terbaik untuk seluruh model diperoleh ketika teknik oversampling SMOTE diterapkan pada algoritma klasifikasi SVM, dengan tingkat akurasi sebesar 99,23% dengan kecepatan 24,39 detik. Penerapan metode seleksi fitur pada penelitian ini berhasil meningkatkan kecepatan komputasi menjadi lebih efektif dengan mereduksi fitur yang kurang berpengaruh dalam klasifikasi SMS spam. Hasil performa terbaik didapatkan ketika melakukan kombinasi SVM SMOTE dan Chi-square. Hal ini dikarenakan kombinasi tersebut di antaranya SMOTE berhasil melakukan replikasi data SMS spam, Chi-square berhasil melakukan reduksi dimensi dengan menghilangkan fitur yang kurang penting dan berhasil melakukan uji independensi dengan maksimal pada dataset SMS spam, serta SVM yang memiliki kemampuan margin maksimal dalam memisahkan kelas spam dan non spam setelah melakukan oversampling SMOTE dan seleksi fitur Chi-square. Short Message Service (SMS) is a widely used communication media. Unfortunately, the increasing usage of SMS has resulted in the emergence of SMS spam, which often disturbs the comfort of cellphone users. Developing a classification model as a solution for filtering SMS spam is very important to minimize disruption and loss to cellphone users due to SMS spam.
In order to address this issue, a classification model was developed using a machine learning algorithm, integrating Chi-square and Information Gain feature selection techniques. The classification techniques utilized include Naive Bayes and Support Vector Machine (SVM). During the modeling process, unbalanced data was discovered, so the Synthetic Minority Oversampling Technique (SMOTE) data balancing technique was utilized in the research. This research focuses on the results of the model evaluation of the used method. There are four methods: classification modeling only, classification modeling with feature selection, classification modeling with SMOTE, and classification modeling with SMOTE and feature selection. Additionally, this research includes the best time evaluation for the classification.
The use of SMOTE in SMS spam classification has had an optimum impact, including being able to improve performance by creating synthetic data for the minority class so that it has a balanced number with the majority class. This affects predictions in each class, both spam and non spam. Implementation of the SMOTE oversampling technique is proven to improve model performance. The best level of accuracy for all models was obtained when the SMOTE oversampling technique was applied to the SVM classification algorithm, with an accuracy level of 99,23% at a speed of 24,39 seconds. The application of the feature selection method in this research succeeded in increasing computing speed to be more effective by reducing features that were less influential in SMS spam classification. The best performance results were obtained when combining SVM SMOTE and Chi-square. This is because the combination includes SMOTE successfully replicating SMS spam data, Chi-square successfully carrying out dimension reduction by eliminating less important features and successfully carrying out maximum independence tests on the SMS spam dataset, and SVM which has maximum margin capability in separate classes—spam and non spam after performing SMOTE oversampling and Chi-square feature selection.
