Perbandingan Kinerja CatBoost dan Double Random Forest untuk Klasifikasi Multi-kelas Menggunakan Data KBLI
Date
2023-01-27Author
Aldania, Annisarahmi Nur Aini
Soleh, Agus Mohamad
Notodiputro, Khairil Anwar
Metadata
Show full item recordAbstract
Klasifikasi multi-kelas adalah pemodelan prediktif untuk peubah respon kategori atau kelas dengan kelas lebih dari dua. Untuk menghasilkan prediksi yang baik pada klasifikasi multi-kelas cenderung lebih kompleks dibandingkan pada klasifikasi dua kelas. Salah satu hal yang mempengaruhi sulitnya prediksi adalah pola interaksi yang menjadi semakin rumit antara peubah bebas dan peubah respon seiring dengan penambahan jumlah kelas. Metode ensemble merupakan salah satu metode yang dapat digunakan untuk mengatasi permasalahan klasifikasi multi-kelas. Dibandingkan menggunakan satu pohon tunggal, metode ensemble bekerja dengan menggabungkan beberapa pohon tunggal untuk melakukan prediksi seperti pada CatBoost dan Double Random Forest (DRF). CatBoost dikembangkan berbasis gradient boosting, dan DRF adalah pengembangan dari Random Forest (RF) yang dapat menghasilkan prediksi yang lebih baik dari RF ketika model yang dihasilkan RF underfit.
Penerapan klasifikasi multi-kelas salah satunya adalah untuk klasifikasi industri. Klasifikasi industri dapat diartikan sebagai kaidah atau prinsip untuk mengelompokkan suatu perusahaan berdasarkan kegiatan ekonominya ke dalam kelas tertentu. Badan Pusat Statistik (BPS) menerbitkan Klasifikasi Baku Lapangan Usaha Indonesia (KBLI) sebagai pedoman untuk mengklasifikasikan perusahaan. Pada pedoman KBLI, setiap perusahaan dapat diklasifikasikan ke dalam lima digit angka kelompok KBLI menurut rincian berupa data teks kegiatan utama dan produk utama yang dihasilkan.
Penelitian ini bertujuan untuk mempelajari kinerja CatBoost dan DRF pada permasalahan klasifikasi multi-kelas menggunakan data simulasi dan empiris. Kinerja model akan dievaluasi berdasarkan nilai balanced akurasi, false positive rate, presisi makro, F1 makro dan imbalanced accuracy metrics. Pada data simulasi, dibentuk skenario klasifikasi multi-kelas dengan peubah respon sebanyak 27 kelas, fitur atau peubah bebas sebanyak 300, dan total data sebanyak 800. Proporsi jumlah data per-kelas pada data simulasi dibuat mendekati data empiris yang dibagi menjadi lima tingkat yaitu 1%, 5%, 6%, 10%, dan 30% dari total data. Terdapat tiga skenario pada data simulasi berdasarkan jarak antar kelas: dekat, sedang, dan jauh. RF juga dapat menghasilkan model yang underfit pada data simulasi skenario jarak dekat dan sedang. Pembentukan data yang underfit pada RF tersebut dilakukan berdasarkan hasil trial dan error tanpa pengaturan parameter tertentu. Pembangkitan data pada masing-masing skenario akan menghasilkan 100 data.
Model CatBoost dan DRF juga diterapkan pada data empiris menggunakan data KBLI 2015. Data KBLI yang digunakan bersumber dari hasil listing sensus ekonomi 2016 dan berfokus pada kategori I yaitu penyediaan akomodasi dan penyediaan makan minum. Peubah respon pada data empiris adalah sebanyak 26 kelas berdasarkan kelompok KBLI lima digit. Rincian yang digunakan untuk membentuk peubah bebas adalah rincian teks deskripsi kegiatan utama dan produk utama perusahaan. Ekstraksi fitur menggunakan TF-IDF digunakan pada kedua rincian tersebut untuk mentransformasi data teks menjadi data numerik supaya dapat diolah pada model. Hasil ekstraksi fitur adalah kolom-kolom berupa kata-kata unik dari seluruh deskripsi kegiatan utama dan produk utama pada perusahaan. Pada data empiris terdapat rasio ketidakseimbangan data sebesar 78, sehingga dilakukan penyeimbangan data menggunakan SMOTE. Terdapat dua model yang dibentuk pada data empiris, yaitu model tanpa SMOTE dan model dengan SMOTE.
Penelitian ini juga melakukan interpretasi hasil model CatBoost menggunakan LIME. LIME merupakan metode yang dapat menjelaskan fitur yang berkontribusi dalam melakukan prediksi dari data individu. Berdasarkan beberapa data individu yang digunakan untuk interpretasi, LIME menjelaskan fitur-fitur yang menjadi pembeda atau pemisah antar kelas kelompok KBLI lima digit. Kesalahan prediksi yang dilakukan pada data individu juga dapat terjelaskan berdasarkan hasil dari LIME.
Hasil studi simulasi menggunakan analisis sidik ragam menunjukkan bahwa perbedaan nilai balanced akurasi yang dihasilkan kedua model tergantung pada skenario jarak antar kelas. Pada skenario jarak antar kelas jauh, kedua model tidak menunjukkan perbedaan nilai balanced akurasi, sementara pada jarak sedang dan jarak dekat, CatBoost menghasilkan nilai balanced akurasi yang lebih tinggi dibandingkan DRF. Pada skenario jarak sedang, perbedaan nilai balanced akurasi pada CatBoost dan DRF lebih kecil dibandingkan pada jarak dekat. Pada skenario jarak sedang, selisih balanced akurasi pada CatBoost dan DRF adalah sebesar 1,71%, dengan CatBoost menghasilkan balanced akurasi sebesar 99,25% sementara DRF 97,54%. Pada skenario jarak dekat, CatBoost menghasilkan nilai balanced akurasi sebesar 32,37% sementara DRF 23,97% sehingga selisih balanced akurasi kedua model sebesar 8,4%.
Pada data empiris, kinerja kedua model dikaji pada kondisi data tanpa penyeimbangan dan data dengan penyeimbangan menggunakan SMOTE. CatBoost dapat menghasilkan nilai prediksi yang baik dan melampaui DRF bahkan pada kondisi data tanpa penyeimbangan. Pada data tanpa penyeimbangan, nilai balanced akurasi CatBoost adalah 92,35%, sementara DRF adalah 88,26%. Penyeimbangan menggunakan SMOTE meningkatkan nilai kebaikan kedua model. Balanced akurasi CatBoost meningkat menjadi 93,37% dan DRF 92,06%. Penggunaan SMOTE pada data empiris memberikan pengaruh yang lebih besar pada DRF dibandingkan pada CatBoost.