Implementasi Model IndoBERT Untuk Menangani Ketidakseimbangan Data Dalam Analisis Sentimen Ulasan Aplikasi KAI Access
Abstract
Analisis sentimen adalah proses pengolahan data tekstual untuk meneliti pendapat atau opini mengenai entitas tertentu. Analisis sentimen dapat diterapkan dalam berbagai hal, salah satunya pada aplikasi KAI Access. Penelitian ini menggunakan 4359 data ulasan aplikasi KAI Access dari bulan Juni 2025-Agustus 2025 yang diklasifikasikan ke kelas positif, negatif dan netral. Penelitian akan mengimplementasikan IndoBERT, salah satu model Bidirectional Encoder Representation from Transformers (BERT) monolingual dengan penerapan Synthetic Minority Over-sampling Technique dan Random Oversampling sebagai metode penanganan yang sering digunakan untuk menangani data tak seimbang. Tujuan dari penelitian ini adalah mengimplementasikan metode untuk penanganan data tak seimbang dan membandingkan model untuk menangani ketidakseimbangan sentimen ulasan pengguna pada aplikasi KAI Access. Data akan dibagi menjadi tiga yaitu 80% data latih, 10% data validasi dan 10% data uji. Penelitian ini menggunakan tiga skenario yaitu IndoBERT, IndoBERT dengan SMOTE, dan IndoBERT dengan ROS. Dari ketiga skenario tersebut, akurasi yang dihasilkan oleh model IndoBERT tanpa penanganan memiliki hasil yang terbaik namun evaluasi mendalam menunjukan bahwa model dengan SMOTE memiliki performa yang baik untuk kelas minor pada kasus data tak seimbang.

