Perbandingan Algoritme Pruning pada Decision Tree yang Dikembangkan dengan Algoritme CART.
Abstract
Perkembangan teknologi yang begitu cepat, ikut berakibat kepada proses pengumpulan data. Penerapan Data Mining sangat berguna untuk memanfaatkan tumpukan data akibat dari mudahnya pengumpulan data. Salah satu metode yang sering digunakan dalam Data Mining adalah decision tree. Pruning merupakan bagian dari proses pembentukan decision tree. Saat pembentukan decision tree, beberapa node merupakan outlier maupun hasil dari noise data. Penerapan pruning pada decision tree, dapat mengurangi outlier maupun noise data pada decision tree awal sehingga dapat meningkatkan akurasi pada klasifikasi data. Oleh sebab itu pemilihan algoritme pruning yang tepat perlu dilakukan untuk mendapat hasil klasifikasi yang maksimal. Penelitian ini menggunakan data profile pelanggan dari perusahaan penyedia kredit. Data tersebut diperoleh dari bank data pada University of California. Data yang digunakan pada penelitian ini memiliki 20 variabel dengan dua buah kelas dan berjumlah 1000 instance. Dari 20 variabel yang ada pada data, 13 variabel merupakan data kualitatif dan sisanya merupakan data bertipe numerik. Pada Penelitian ini dibandingkan tiga algoritme pruning, yaitu Cost Complexity Pruning (CCP), Reduced Error Pruning (REP), Error Based Pruning (EBP). Ketiga algoritme tersebut melakukan pruning pada decision tree yang dikembangkan dengan algoritme Classification and Regression Tree (CART). Perbandingan algoritme dilakukan berulang-ulang pada kondisi data yang berbeda baik dari segi jumlah instance maupun variabel data. Perbandingan algoritme yang dilakukan meliputi perbandingan nilai akurasi dari decision tree yang terbentuk, serta waktu proses dari ketiga algoritme pruning. Hasil penelitian menunjukkan bahwa algoritme CCP merupakan algoritme dengan waktu eksekusi tercepat hampir untuk setiap pruning pada data dengan jumlah variabel berbeda-beda. Pada rataan error rate seluruh percobaan, algoritme REP akan menghasilkan error rate paling kecil. Walaupun error rate algoritme REP lebih baik, error rate tersebut tidak berbeda jauh dengan nilai error rate algoritme EBP, namun dengan nilai error rate yang mendekati serupa, EBP menghasilkan decision tree yang jauh lebih simpel daripada algoritme REP. Kata kunci: Decision tree, Classification and Regression Tree (CART), Cost Complexity Pruning (CCP), Reduced Error Pruning (REP), Error Based Pruning (EBP)
Collections
- UT - Computer Science [2241]