Analisis Sentimen dari Data Teks Bencana Banjir yang Tidak Seimbang dan Mengandung Sarkasme menggunakan Metode BERT-LSTM
Date
2024Author
Khamidah, Nur
Notodiputro, Khairil Anwar
Oktarina, Sachnaz Desta
Metadata
Show full item recordAbstract
Pengolahan bahasa alami (Natural Language Processing/NLP) seiring
berkembangnya teknologi menjadi semakin penting, khususnya terkait dengan analisis data teks. Analisis sentimen sebagai bagian dari NLP dilakukan dengan tujuan mengidentifikasi dan mengekstraksi informasi subjektif dari teks yang diungkapkan oleh manusia, sering kali melalui metode klasifikasi yang didukung oleh data berlabel. Namun, dalam melakukan analisis sentimen dengan teknik klasifikasi kerap ditemui beberapa tantangan, antara lain terkait bagaimana klasifikasi membutuhkan label yang diperoleh melalui proses pelabelan manual yang membutuhkan biaya dan sumber daya yang besar, analisi sentimen yang berkaitan dengan topik tertentu akan cenderung mengakibatkan salah satu kelas sentimen lebih dominan sehingga mengakibatkan ketidakseimbangan kelas dalam data, serta kesulitan dalam mengidentifikasi sarkasme di mana sarkasme merupakan bagian dari tantangan dalam memahami bahasa manusia.
Penelitian sebelumnya sering menggunakan data dari platform seperti X (dahulu dikenal sebagai Twitter) untuk analisis sentimen, namun, proses pelabelan manual yang digunakan dapat menjadi pekerjaan yang rumit dan memakan waktu. Selain itu, ketidakseimbangan kelas dalam data sering kali menyebabkan masalah, di mana kelas minoritas cenderung kurang terwakili. Untuk mengatasi tantangan ini, beberapa pendekatan telah diajukan, termasuk penggunaan metode seperti SMOTE (Synthetic Minority Over-sampling Technique) untuk menangani ketidakseimbangan kelas dalam data. Selain itu, dalam menghadapi data teks yang memiliki struktur sekuensial, metode LSTM (Long Short-Term Memory) merupakan metode yang populer digunakan dalam menangani data sekuensial seperti data teks. LSTM, sebagai pengembangan dari RNN (Recurrent Neural Networks), mampu mengatasi masalah memori jangka panjang dan lebih efektif dalam mengingat informasi dalam jangka waktu yang lebih lama. Tantangan lain yang sering dihadapi dalam analisis sentimen adalah mengenali sarkasme, sebuah bentuk ekspresi yang sulit untuk diinterpretasikan bahkan oleh manusia. Model bahasa BERT (Bidirectional Encoder Representations from Transformers) telah terbukti efektif dalam menganalisis sentimen. Dengan metode deep learning secara bidirectional, BERT dapat memahami konteks bahasa alami dengan lebih baik.
Penelitian ini bertujuan untuk menguji kinerja beberapa model klasifikasi, yaitu BERT, LSTM, dan model kombinasi BERT-LSTM, dalam mengenali teks yang mengandung sarkasme, khususnya dalam konteks banjir di Indonesia. Melalui penggunaan teknik penanganan data tidak seimbang SMOTE, Random Undersampling, dan SMOTETomek, penelitian ini juga mengevaluasi apakah penanganan data tidak seimbang tersebut mampu meningkatkan kinerja model klasifikasi. Pemodelan menggunakan BERT, LSTM, dan BERT-LSTM dilakukan dengan terlebih dahulu melakukan tuning hyperparameter antara lain epochs, batch size, dan learning rate. Mengingat komputasi yang dilakukan berat dan tidak memungkinkan untuk menggunakan prosesor CPU, digunakan bantuan prosesor lain seperti GPU T4, NVIDIA GPU A100 dan V100 untuk menjalankan model. Seluruh prosedur pemodelan ini dilakukan melalui Google Colaboratory dengan bahasa pemrograman Python 3.10.6.
Terdapat dua jenis data yang digunakan dalam penelitian ini, antara lain data simulasi teks dan data empiris. Data simulasi digenerasi melalui ChatGPT 3.5 dengan prompt atau instruksi tertentu dan dikelompokkan menjadi tiga jenis label antara lain SARKAS (data teks mengandung sarkasme dengan jelas), BETWEEN (data teks kurang jelas terdefiisi sebagai sarkasme atau bukan sarkasme, dan NONSARKAS (data teks dengan jelas terdefinisi tidak mengandung sarkasme) dengan muatan corpus atau term yang disesuaikan dengan data empiris yang sebelumnya telah dieksplorasi sehingga struktur kata yang dihasilkan lebih sesuai dengan data aslinya. Pemodelan pada data simulasi dimaksudkan untuk mengidentifikasi apakah model yang digunakan mampu mengenali data teks yang mengandung sarkasme dengan baik. Data empiris diperoleh dengan metode scraping melalui media sosial Twitter/X dengan X API v.2 pada rentang waktu 19 Desember 2023 hingga 13 Januari 2024 dan diperoleh total 10.479 post. Data empiris yang diperoleh selanjutnya dilakukan pembersihan dan pelabelan oleh 9 (sembilan) orang annotator yang berasal dari 3 (tiga) bidang antara lain Statistika, Bahasa dan Sastra Indonesia, serta Psikologi untuk mengetahui apakah terdapat pengaruh yang diberikan oleh perbedaan bidang annotator terhadap hasil pelabelan dan performa prediksi model. Seluruh data ini selanjutnya dilakukan eksplorasi, pra-pemrosesan, dan vektorisasi menggunakan TF-IDF sebagaimana pada pemrosesan data teks pada umumnya.
Hasil dari penelitian ini menunjukkan bahwa model BERT dan BERT-LSTM mampu mengklasifikasikan teks mengandung sarkasme dengan baik dan akurat, baik dengan atau tanpa dilakukan teknik penanganan ketidakseimbangan kelas dalam data dengan nilai akurasi terboboti masing-masing secara berturut-turut sebesar 99,96% dan 99,97% pada data latih dan sebesar 98,7% dan 97,8% pada data uji. Selain itu, pemodelan pada data empiris menunjukkan bahwa model BERT dan BERT-LSTM memiliki kinerja yang lebih baik dibandingkan dengan model LSTM dalam mengklasifikasikan sentimen teks terkait banjir dengan nilai akurasi terboboti yang diperoleh lebih besar dan stabil pada semua jenis data berdasarkan bidang annotator yang dimodelkan. Penelitian ini memberikan wawasan tambahan tentang kemampuan model-model tersebut dalam mengatasi tantangan dalam analisis sentimen, serta pemahaman lebih lanjut tentang persepsi masyarakat terhadap bencana banjir di Indonesia. Natural Language Processing (NLP) is becoming increasingly important as technology evolves, especially in relation to text data analysis. Sentiment analysis, as part of NLP, is conducted with the aim of identifying and extracting subjective information from text expressed by humans, often through classification methods supported by labelled data. However, performing sentiment analysis with classification techniques often encounters several challenges, including the need for labels obtained through manual labelling, which requires significant costs and resources. Sentiment analysis related to specific topics tends to result in one sentiment class being more dominant, leading to class imbalance in the data, and difficulties in identifying sarcasm, which is part of the challenge of understanding human language.
Previous research often used data from platforms like X (formerly known as Twitter) for sentiment analysis. However, the manual labelling process used can become complicated and time-consuming. Additionally, class imbalance in the data often causes problems, with minority classes tending to be underrepresented. To address these challenges, several approaches have been proposed, including the use of methods like SMOTE (Synthetic Minority Over-sampling Technique) to handle class imbalance in data. Furthermore, in dealing with text data that has a sequential structure, the LSTM (Long Short-Term Memory) method is popularly used for handling sequential data like text. LSTM, as a development of RNN (Recurrent Neural Networks), can overcome long-term memory issues and is more effective in retaining information over a longer period. Another challenge often faced in sentiment analysis is recognizing sarcasm, a form of expression that is difficult to interpret even by humans. The BERT (Bidirectional Encoder Representations from Transformers) language model has proven effective in sentiment analysis. With deep learning methods in a bidirectional manner, BERT can understand natural language context better.
This study aims to test the performance of several classification models, namely BERT, LSTM, and the combined BERT-LSTM model, in recognizing text containing sarcasm, particularly in the context of flooding in Indonesia. Using data imbalance handling techniques such as SMOTE, Random Undersampling, and SMOTETomek, this study also evaluates whether these data imbalance handling techniques can improve the performance of classification models. Modelling using BERT, LSTM, and BERT-LSTM is carried out by first tuning hyperparameters, including epochs, batch size, and learning rate. Considering the heavy computation involved, which is not feasible using a CPU processor, other processors like GPU T4, NVIDIA GPU A100, and V100 are used to run the models. All modelling procedures are carried out through Google Colaboratory with Python 3.10.6 programming language.
There are two types of data used in this study, namely simulation text data and empirical data. Simulation data is generated through ChatGPT 3.5 with specific prompts or instructions and grouped into three types of labels: SARKAS (text data clearly containing sarcasm), BETWEEN (text data less clearly defined as sarcasm or non-sarcasm), and NONSARKAS (text data clearly defined as non-sarcasm), with corpus or term content adjusted to previously explored empirical data to make the word structure produced more in line with the original data. Modeling on simulation data is intended to identify whether the models used can recognize text data containing sarcasm well. Empirical data is obtained through scraping from social media Twitter/X using X API v.2 between December 19, 2023, and January 13, 2024, with a total of 10,479 posts. The empirical data obtained is then cleaned and labelled by 9 annotators from three fields: Statistics, Indonesian Language and Literature, and Psychology to determine whether the annotator's field influences the labelling results and model prediction performance. All this data is then explored, pre-processed, and vectorized using TF-IDF, as in general text data processing.
The results of this study show that the BERT and BERT-LSTM models can classify text containing sarcasm accurately, both with or without class imbalance handling techniques, with weighted accuracy values 99.96% dan 99.97% on train data and 98.7% dan 97.8% on test data, respectively. Additionally, modelling on empirical data shows that the BERT and BERT-LSTM models perform better than the LSTM model in classifying text sentiment related to flooding, with higher and more stable weighted accuracy values across all data types based on the annotator's field. This study provides additional insights into the capability of these models in addressing challenges in sentiment analysis and further understanding of public perception towards flooding disasters in Indonesia.