Kajian Optimasi Dua Tahap dalam Pemodelan Klasifikasi Ensemble Menggunakan Algoritma Genetika
View/ Open
Date
2019Author
Raharjo, Rahmatullah Dimas Rekso
Sartono, Bagus
Soleh, Agus Mohamad
Metadata
Show full item recordAbstract
Data mining merupakan suatu proses eksplorasi dan analisis data dalam
jumlah yang besar untuk menemukan pola dan aturan-aturan yang memiliki
makna. Metode data mining dapat dibagi menjadi dua jenis, yaitu metode
deskriptif dan metode prediktif. Metode yang digunakan dalam penelitian ini
termasuk dalam jenis metode prediktif, yaitu metode yang dirancang untuk
memprediksi suatu informasi yang baru berdasarkan informasi yang kita miliki
saat ini, informasi yang dihasilkan nantinya dapat bersifat kualitatif maupun
kuantitatif. Informasi yang bersifat kualitatif dapat berupa suatu pemodelan
klasifikasi, yang secara garis besar dapat dibagi dua jenis, yaitu supervised
classification dan unsupervised classification.
Pemilihan peubah merupakan salah satu hal penting dalam pemodelan
klasifikasi. Salah satu metode yang dapat digunakan untuk melakukan pemilihan
peubah secara lebih efisien adalah dengan menggunakan Algoritma Genetika.
Algoritma Genetika merupakan suatu algoritma yang dibangun dengan mengikuti
pola evolusi pada makhluk hidup untuk mendapatkan suatu solusi terbaik. Salah
satu cara yang dapat digunakan untuk meningkatkan akurasi pada pemodelan
klasifikasi adalah menggunakan ensemble learning, yang merupakan suatu
metode penggabungan beberapa base classifier yang kemudian digunakan untuk
memprediksi data baru. Secara umum, hasil prediksi dari ensemble learning dapat
memberikan hasil prediksi yang lebih baik jika dibandingkan dengan hasil
prediksi dari satu metode saja. Dalam hubungannya dengan pembobotan pada
ensemble learning, algoritma genetika dapat digunakan untuk menentukan bobot
terbaik guna mendapatkan hasil prediksi yang lebih baik.
Dalam penelitian ini digunakan 7 base classifier, yaitu k-Nearest Neigbor
(k-NN), regresi logistik, naïve bayes (NB), decision tree (DT), support vector
machine (SVM), random forest (RF) dan boosting. Data yang digunakan dalam
penelitian ini terdiri dari sembilan dataset yang diambil dari UCI machine
learning. Hasil yang diperoleh dalam penelitian ini menunjukkan bahwa akurasi
prediksi dapat meningkat sekitar 0-34% jika dibandingkan dengan model-model
pembanding lainnya, yaitu regresi logistik (RL), gaussian naïve bayes (GNB), knearest
neighbor (KNN), analisis diskriminan (AD), support vector machine
(SVM), decision tree (DT), bagging, AdaBoost, random forest (RF), stacking, dan
neural network (NN).