Komparasi Klasifikasi Naive Bayes dan Artificial Neural Network dan Penerapannya dalam Kejadian Anemia pada Remaja Putri
Abstract
Klasifikasi merupakan salah satu pendekatan supervised learning yang mempelajarai pola-pola yang terdapat pada kelas data pelatihan. Klasifikasi dalam machine learning akan menghasilkan performa baik apabila memiliki kelas data yang seimbang pada peubah respons. Olehnya itu, ketidakseimbangan kelas merupakan masalah yang harus ditangani secara serius. Pada penelitian ini, ketidakseimbangan kelas ditangani menggunakan Synthetic Minority Over-Sampling Tehcnique (SMOTE).
Metode klasifikasi klasik yang cukup populer dan masih banyak digunakan hingga saat ini yaitu Naive Bayes (NB) dan Artificial Neural Network (ANN). Metode NB merupakan pengembangan dari teorema Bayes yang mencari maksimum dari nilai posterior. Algoritma ANN yang cukup popular digunakan hingga saat ini yaitu backpropagation. Algoritma backpropagation memiliki kelemahan pada penggunaan learning rate. Ketika menggunakan learning rate yang besar, nilai bobot semakin jauh dari bobot minimum. Sebaliknya apabila menggunakan learning rate yang kecil, komputasi akan menjadi sangat lama. Hal ini mendasari pengembangan algoritma baru yaitu resilient backpropogation yang mengabaikan penggunaan learning rate namun tetap mampu mempercepat konvergensi pada komputasi.
Masalah empiris terkait dengan klasifikasi banyak ditemui dalam kehidupan sehari-hari, salah satunya dalam bidang kesehatan. Pemanfaatan klasifikasi dalam masalah kesehatan dapat membantu diagnosis lebih cepat dan akurat serta pengambilan keputusan tindakan medis yang tepat. Salah satu masalah kesehatan dunia saat ini yaitu anemia. Penelitian ini bertujuan untuk mengkaji perbandingan kinerja pada metode klasifikasi NB dan ANN. Metode terbaik antara NB dan ANN diperoleh dari kajian simulasi, kemudian hasil metode terbaiknya diterapkan pada data empiris. Data simulasi dibangkitkan berdasarkan kondisi proporsi ketidakseimbangan kelas, korelasi antara peubah prediktor, keragaman peubah prediktor, dan ukuran amatan. Data empiris yang digunakan merupakan data kejadian anemia pada remaja putri yang merupakan peubah respons. Peubah prediktor yang digunakan di antaranya penyakit penyerta, gaya hidup sehat, dan data hasil pengecekan darah pada responden. Data anemia pada remaja putri diperoleh dari Badan Penelitian dan Pengembangan Gizi Kesehatan (Balitbangkes) yang terdiri dari 2499 amatan yang tersebar di 33 provinsi di Indonesia.
Data simulasi yang digunakan pada penelitian ini merupakan data bangkitan populasi dengan banyaknya amatan N = 1.000.000 dan empat peubah prediktor (X_1,〖 X〗_2,〖 X〗_(3,) 〖 X〗_(4 )). Peubah prediktor merupakan kombinasi antara dua peubah prediktor kategorik (X_1,〖 X〗_2) dan dua peubah prediktor numerik (X_(3,) 〖 X〗_(4 )). Peubah prediktor kategorik dibangkitkan menggunakan metode Multivariat Binary Random Variable (MBRV) dan peubah prediktor numerik dibangkitkan menggunakan sebaran Multivariat Normal. Pembangkitan data populasi dibuat berdasarkan kriteria ketidakseimbangan kelas peubah respons 75% : 25% dan 95% : 5%; korelasi antara peubah prediktor yang kecil, sedang, dan besar
(ρ=0,2;0,5;0,9) dan keragaman peubah prediktor kecil dan besar (σ^2=2;3;50;55). Peubah respons dibangkitkan menggunakan sebaran Binomial. Skenario akhir yang digunakan untuk pemodelan yaitu data hasil penarikan contoh secara berulang pada populasi dengan kondisi banyaknya amatan kecil, sedang, dan besar (n = 30, 100, 1000). Data simulasi yang digunakan sebanyak 36 set data skenario. Analisis menunjukkan bahwa SMOTE mampu memberikan performa yang lebih baik pada data dengan kelas yang tidak seimbang dari pada tidak dilakukan penanganan ketidakseimbangan kelas. Kesimpulan dari kajian simulasi yaitu metode terbaik yang dihasilkan adalah ANN.
Pemodelan klasifikasi dilakukan untuk memprediksi kejadian anemia pada remaja putri menggunakan metode ANN. Algoritma yang digunakan yaitu Rprop-ANN dengan menggunakan SMOTE. Peubah prediktor yang diikutkan pada pemodelan yaitu lima peubah prediktor kategorik dan tiga peubah prediktor numerik. Peubah tersebut adalah diare, hepatitis, malaria, konsumsi sayur, status gizi, serum feritin, sTfR, dan CRP. Model arsitektur yang digunakan yaitu 9-4-1 dengan performa prediksi rata-rata nilai akurasi sebesar 0,74; nilai sensitivitas sebesar 0,85; nilai F1-Score sebesar 0,83; dan nilai AUC-ROC sebesar 0,62. Seluruh hasil evaluasi menunjukkan bahwa model mampu melakukan prediksi kejadian anemia dengan sangat baik.