Evaluasi Kinerja Model BiLSTM dan IndoBERT pada Analisis Sentimen dengan Variasi Pra-pemrosesan dan Metode Pelabelan
Abstract
Analisis sentimen berbasis Natural Language Processing (NLP) merupakan pendekatan penting dalam pemanfaatan ulasan pelanggan e-commerce untuk memahami opini dan emosi konsumen yang memengaruhi pengambilan keputusan. Seiring meningkatnya volume ulasan berbahasa Indonesia yang dihasilkan secara daring, analisis sentimen dihadapkan pada tantangan berupa skala data yang besar serta karakteristik linguistik teks yang informal, mengandung code-mixing, kesalahan ejaan, variasi kosakata, dan penggunaan emoji bermuatan emosional. Selain itu, keterbatasan data berlabel, perbedaan kualitas label, serta ketidakseimbangan distribusi kelas sentimen berpotensi menimbulkan bias pembelajaran dan menurunkan kinerja model, terutama pada kelas minoritas. Kondisi ini menunjukkan bahwa keberhasilan analisis sentimen tidak hanya ditentukan oleh pemilihan arsitektur model, tetapi juga oleh strategi pra-pemrosesan teks, metode pelabelan, dan penanganan ketidakseimbangan kelas. Meskipun berbagai penelitian telah mengkaji faktor-faktor tersebut secara terpisah, kajian yang mengevaluasi dampak kombinasi faktor dalam satu kerangka analisis terintegrasi masih terbatas, khususnya pada ulasan e-commerce berbahasa Indonesia yang bersifat noise dan tidak seimbang. Oleh karena itu, penelitian ini bertujuan mengevaluasi secara komprehensif pengaruh variasi pra-pemrosesan teks, metode pelabelan manual dan otomatis, serta teknik penanganan ketidakseimbangan kelas terhadap kinerja model BiLSTM dan IndoBERT.
Data penelitian diperoleh dari ulasan pelanggan berbahasa Indonesia pada platform Tokopedia melalui teknik scraping dan diberi label ke dalam tiga kelas sentimen, yaitu positif, netral, dan negatif. Analisis dilakukan menggunakan tiga skenario pra-pemrosesan dengan tingkat pembersihan minimal, moderat, dan ketat. Pelabelan data dibandingkan antara pelabelan manual sebagai gold standard dan pelabelan otomatis menggunakan model pralatih GPT dan XLM-RoBERTa. Selanjutnya, proses klasifikasi sentimen dilakukan menggunakan model deep learning, yaitu BiLSTM sebagai model sekuensial dan IndoBERT sebagai model transformer pralatih Bahasa Indonesia. Untuk menangani ketidakseimbangan distribusi kelas, diterapkan teknik penyeimbangan pada tingkat algoritmik berupa class weight dan focal loss. Pemodelan dilakukan melalui pembagian data latih dan uji serta hyperparameter tuning menggunakan stratified cross-validation, dengan evaluasi kinerja menggunakan balanced accuracy dan F1-score pada 20 iterasi, serta dianalisis lebih lanjut melalui uji inferensial ANOVA.
Hasil pengujian menunjukkan bahwa pelabelan manual dan otomatis menghasilkan distribusi sentimen yang didominasi oleh kelas positif pada seluruh skenario pra pemrosesan, sehingga data bersifat tidak seimbang. Dibandingkan XLM RoBERTa, pelabelan otomatis berbasis GPT memberikan tingkat kesesuaian yang lebih tinggi terhadap pelabelan manual, yang ditunjukkan oleh nilai balanced accuracy pada kisaran 0,89 hingga 0,90, nilai F1-score pada kisaran 0,86 hingga 0,88, serta nilai Cohen’s kappa di atas 0,81 yang mengindikasikan tingkat kesepakatan sangat baik dan stabil, sementara XLM RoBERTa menunjukkan tingkat kesesuaian yang lebih rendah.
Pada tahap klasifikasi, IndoBERT secara konsisten menunjukkan kinerja yang lebih tinggi dibandingkan BiLSTM pada berbagai kombinasi faktor. Model ini mencapai nilai balanced accuracy maksimum sekitar 0,85 dan F1-score sekitar 0,82. Sebaliknya, BiLSTM menghasilkan performa yang lebih rendah, dengan balanced accuracy tertinggi berada pada kisaran 0,77 sampai 0,78 dan F1-score sekitar 0,75 sampai 0,76, meskipun setelah penerapan penyeimbangan kelas.
Keunggulan IndoBERT berkaitan dengan karakteristik arsitektur transformer yang menggunakan representasi kontekstual dan mekanisme perhatian global, sehingga mampu menangkap hubungan semantik antar kata secara menyeluruh meskipun distribusi kelas tidak seimbang. Sebaliknya, BiLSTM menggunakan representasi kata berbasis FastText yang bersifat statis dan sangat bergantung pada pola urutan token, sehingga kinerjanya lebih terpengaruh oleh dominasi kelas mayoritas. Oleh karena itu, penerapan teknik penyeimbangan data berupa class weight dan focal loss memberikan dampak peningkatan yang lebih besar pada BiLSTM dibandingkan IndoBERT, karena teknik tersebut memperkuat kontribusi kesalahan pada kelas minoritas selama proses pembelajaran. Selain itu, IndoBERT menunjukkan kinerja terbaik pada pra pemrosesan minimal yang mempertahankan konteks linguistik dan sinyal emosional seperti emoji, sedangkan BiLSTM lebih optimal pada pra pemrosesan yang lebih ketat karena pola token menjadi lebih konsisten untuk dipelajari. Temuan ini diperkuat oleh hasil ANOVA yang menunjukkan bahwa faktor model, pra pemrosesan, pelabelan, dan teknik penyeimbangan kelas beserta interaksinya berpengaruh signifikan terhadap kinerja analisis sentimen, sehingga tidak terdapat satu konfigurasi yang optimal secara universal.
Berdasarkan hasil pengujian, pendekatan terbaik dalam analisis sentimen ulasan e-commerce berbahasa Indonesia diperoleh melalui kombinasi pelabelan otomatis berbasis GPT, pra-pemrosesan ringan yang mempertahankan konteks linguistik dan sinyal emosional, penggunaan IndoBERT sebagai model klasifikasi, serta penerapan teknik penyeimbangan kelas berupa focal loss. Kombinasi ini menghasilkan kinerja tertinggi dan paling stabil dalam mengenali seluruh kelas sentimen pada data yang tidak seimbang, yang tercermin dari nilai balanced accuracy dan F1-score yang lebih unggul dibandingkan konfigurasi lainnya. Keunggulan tersebut didukung oleh karakteristik IndoBERT sebagai model berbasis transformer yang mampu memanfaatkan konteks bahasa secara kontekstual, sementara focal loss efektif meningkatkan keadilan pengenalan antar kelas dengan memfokuskan pembelajaran pada sampel yang sulit diklasifikasikan. Sentiment analysis based on Natural Language Processing (NLP) is an important approach for leveraging e-commerce customer reviews to understand consumer opinions and emotions that influence decision-making. As the volume of Indonesian-language online reviews continues to grow, sentiment analysis faces increasingly complex challenges, not only due to large data scale but also because of linguistic characteristics such as informal language, code-mixing, spelling errors, vocabulary variation, and the use of emotionally charged emojis. In addition, limited availability of labeled data, variations in label quality, and imbalanced sentiment class distributions can introduce learning bias and reduce model performance, particularly for minority classes. These conditions indicate that the success of sentiment analysis is not determined solely by model architecture selection, but also by text preprocessing strategies, labeling methods, and approaches to handling class imbalance. Although prior studies have examined these factors individually, research that evaluates the combined effects of these factors within an integrated analytical framework remains limited, especially for Indonesian e-commerce reviews that are noisy and imbalanced. Therefore, this study aims to comprehensively evaluate the effects of variations in text preprocessing, manual and automatic labeling methods, and class imbalance handling techniques on the performance of BiLSTM and IndoBERT models.
The research data were obtained from Indonesian-language customer reviews on the Tokopedia platform through web scraping and were labeled into three sentiment classes: positive, neutral, and negative. The analysis employed three preprocessing scenarios representing minimal, moderate, and strict levels of text cleaning. Labeling methods were compared between manual labeling as the gold standard and automatic labeling using pretrained GPT and XLM-RoBERTa models. Sentiment classification was then performed using deep learning models, namely BiLSTM as a sequential model and IndoBERT as a pretrained transformer-based model for the Indonesian language. To address class imbalance, algorithm-level balancing techniques in the form of class weight and focal loss were applied. Model training was conducted using train–test splits and hyperparameter tuning with stratified cross-validation. Model performance was evaluated using balanced accuracy and F1-score across 20 iterations and further analyzed using inferential ANOVA.
The experimental results show that both manual and automatic labeling produced sentiment distributions dominated by the positive class across all preprocessing scenarios, indicating that the data were imbalanced. Compared to XLM-RoBERTa, GPT-based automatic labeling demonstrated higher agreement with manual labeling, as indicated by balanced accuracy values ranging from 0.89 to 0.90, F1-score between 0.86 and 0.88, and Cohen’s kappa values above 0.81, reflecting very strong and stable agreement. In contrast, XLM-RoBERTa exhibited lower agreement levels.
At the classification stage, IndoBERT consistently demonstrated higher performance than BiLSTM across various factor combinations. The model achieved a maximum balanced accuracy of approximately 0.85 and an F1-score of around 0.82. In contrast, BiLSTM showed lower performance, with the highest balanced accuracy ranging from 0.77 to 0.78 and an F1-score of approximately 0.75 to 0.76, even after class balancing was applied. IndoBERT’s superior performance is associated with its transformer-based architecture, which employs contextual representations and global attention mechanisms that enable comprehensive modeling of semantic relationships between words, even under imbalanced class distributions. In contrast, BiLSTM relies on static FastText-based word representations and is highly dependent on token sequence patterns, making it more susceptible to majority class dominance. Consequently, the application of class weight and focal loss produced larger performance gains for BiLSTM than for IndoBERT, as these techniques amplify the contribution of minority class errors during training. Furthermore, IndoBERT achieved its best performance under minimal preprocessing that preserved linguistic context and emotional signals such as emojis, whereas BiLSTM performed optimally under stricter preprocessing, where token patterns became more consistent and easier to learn. These findings are reinforced by ANOVA results, which indicate that model type, preprocessing, labeling method, class balancing technique, and their interactions significantly affect sentiment analysis performance, confirming that no single configuration is universally optimal.
Based on the experimental results, the most effective approach for sentiment analysis of Indonesian e-commerce reviews is achieved through a combination of GPT-based automatic labeling, light text preprocessing that preserves linguistic context and emotional signals, the use of IndoBERT as the classification model, and the application of focal loss as the class balancing technique. This configuration yields the highest and most stable performance in recognizing all sentiment classes under imbalanced data conditions, as reflected by superior balanced accuracy and F1-score compared to other configurations. These advantages are supported by the transformer-based architecture of IndoBERT, which effectively captures contextual language information, while focal loss enhances fairness across classes by focusing the learning process on hard-to-classify samples.
