Spam Filter Menggunakan Model Klasifikasi Multivariate Bernoulli dan Multinomial Naïve Bayes
Abstract
Pertumbuhan pengguna email memicu peningkatan spam email sehingga diperlukan teknik spam filter. Model klasifikasi Naïve Bayes (NB) adalah salah satu metode supervised learning yang dapat digunakan untuk spam filter karena tingkat akurasi yang tinggi dan mudah diimplementasikan. Multivariat Bernoulli NB menggunakan atribut Boolean sedangkan Multinomial NB menggunakan frekuensi term, adalah dua model NB yang sering digunakan untuk fungsi klasifikasi. Pemilihan fitur ciri yang baik juga berpengaruh pada peningkatan akurasi klasifikasi. Penelitian ini mencoba memodelkan spam filter menggunakan model klasifikasi Multivariat Bernoulli dan Multinomial NB kemudian membandingkan akurasinya. Seleksi fitur chi-square dipilih dengan harapan dapat menghasilkan fitur ciri yang lebih baik. Model Multinomial NB tanpa seleksi fitur menghasilkan akurasi tertinggi sebesar 95.31%, sedangkan untuk tingkat akurasi terendah didapatkan pada model Multivariate Bernoulli tanpa seleksi fitur sebesar 89.69%. Seleksi fitur chi-square meningkatkan akurasi model Multivariate Bernoulli sebesar 3.31%, sedangkan Multinomial NB mengalami penurunan akurasi sebesar 1.98%.
Collections
- UT - Computer Science [2322]