Pengaruh Penggerombolan Topik Menggunakan Latent Dirichlet Allocation terhadap Performa Algoritma Klasifikasi pada Data Teks
View/ Open
Date
2024Author
Hanapi, Perisai Zidane
Masjkur, Mohammad
Soleh, Agus Mohamad
Metadata
Show full item recordAbstract
Penggerombolan dilakukan untuk mendeteksi pola terselubung di dalam
gugus data dengan cara mengelompokkan data yang serupa. Penggerombolan juga
dapat dimanfaatkan dalam rekayasa fitur dengan cara menambahkan kolom berisi
kategori atau peluang dari hasil penggerombolan. Hal tersebut dipercaya mampu
meningkatkan performa klasifikasi. Data teks bersifat diskret, sehingga untuk
penggerombolan digunakan metode Latent Dirichlet Allocation (LDA), dan
penentuan banyak gerombol terbaik menggunakan ukuran koherensi Cv. Studi ini
menguji apakah clustering dapat meningkatkan kinerja klasifikasi menggunakan
berbagai gugus data teks dan algoritma pembelajaran mesin. Gugus data teks yang
digunakan untuk eksperimen ini mencakup deteksi clickbait, prediksi sentimen, dan
kategorisasi berita yang merepresentasikan masalah kelas biner dan multi-class di
dunia nyata. Ketidakseimbangan kelas dalam dataset ditangani dengan teknik
oversampling. Kinerja model klasifikasi dibandingkan antara data asli
(menggunakan TF-IDF), data topik yang dikelompokkan (menggunakan LDA), dan
gabungan dari keduanya. Algoritma yang digunakan meliputi regresi logistik,
analisis diskriminan linear, KNN, dan random forest. Hasil penelitian menunjukkan
bahwa data topik yang dikelompokkan menghasilkan kinerja terburuk pada semua
algoritma. Sedangkan data asli dan gabungan tidak memiliki perbedaan yang
signifikan pada regresi logistik dan analisis dikriminan, namun data gabungan
mengalami penurunan kinerja pada model KNN dan random forest. Dengan
demikian, kinerj model cenderung lebih buruk saat gerombol hasil pemodelan topik
diperkenalkan. Oversampling mampu meningkatkan performa klasifikasi (diukur
dengan skor F1), kecuali pada analisis diskiminan. Analisis diskriminan linear
memiliki performa yang terbaik di setiap gugus data, sementara regresi logistik
menempati posisi kedua terbaik.
