Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/171989
Title: Evaluasi SMOTE dan GPT-4o untuk Augmentasi Teks dalam Peningkatan Akurasi Analisis Sentimen Teks Berbahasa Indonesia pada Data Tidak Seimbang
Other Titles: Evaluation of GPT-4o for Text Augmentation and SMOTE in Improving the Accuracy of Sentiment Analysis of Indonesian Text on Imbalanced Data
Authors: Soleh, Agus Mohamad
Suhaeni, Cici
Hasanah, Uswatun
Issue Date: 2026
Publisher: IPB University
Abstract: Ulasan pengguna aplikasi mobile banking merupakan sumber informasi penting karena secara langsung merefleksikan pengalaman dan kepuasan nasabah terhadap kualitas layanan digital perbankan. Analisis sentimen terhadap ulasan ini berperan strategis dalam meningkatkan kualitas produk dan menjaga loyalitas nasabah. Namun, penelitian kadang menghadapi tantangan utama berupa ketidakseimbangan kelas (class imbalance), di mana jumlah ulasan negatif jauh lebih dominan dibandingkan ulasan positif. Ketidakseimbangan ini menyebabkan model klasifikasi cenderung bias terhadap kelas mayoritas sehingga kemampuan mendeteksi kelas minoritas menurun, dan informasi penting berisiko terabaikan. Berbagai upaya telah dilakukan untuk mengatasi masalah tersebut, salah satunya adalah Synthetic Minority Oversampling Technique (SMOTE), sebuah pendekatan klasik yang menghasilkan sampel sintetis dengan interpolasi antar tetangga terdekat. Metode ini terbukti efektif meningkatkan representasi kelas minoritas, tetapi memiliki keterbatasan dari sisi efisiensi komputasi dan potensi menghasilkan sampel yang terlalu mirip dengan data asli. Seiring perkembangan Large Language Models (LLM), muncul alternatif baru berupa augmentasi teks berbasis GPT yang mampu menghasilkan data sintetis yang bervariasi, natural, dan semantik. GPT-4o, sebagai model generatif terbaru, berpotensi memperbaiki representasi kelas minoritas sekaligus menjaga kebermaknaan linguistik. Penelitian ini mengevaluasi efektivitas GPT-4o untuk augmentasi teks dibandingkan dengan SMOTE dalam meningkatkan akurasi klasifikasi sentimen pada data tidak seimbang. Dua dataset digunakan, yaitu Livin’ by Mandiri (8,057 ulasan negatif dan 1,828 ulasan positif) serta BCA Mobile (15,780 ulasan negatif dan 3,792 ulasan positif), yang dikumpulkan dari Google Play Store pada Desember 2024–Januari 2025. Augmentasi GPT-4o dilakukan dengan few-shot prompting menggunakan lima contoh ulasan positif, disertai variasi hyperparameter temperature (0.5, 1.0, dan 1.5) untuk menghasilkan teks sintetis. Sebagai pembanding, SMOTE diterapkan pada representasi vektor IndoBERT. Model klasifikasi yang diuji meliputi Long Short-Term Memory (LSTM) dan Bidirectional Long Short-Term Memory (BiLSTM) dengan mekanisme early stopping dan cross-validation untuk memastikan hasil yang stabil. Evaluasi kinerja dilakukan menggunakan metrik balanced accuracy, sensitivitas, G-Mean, serta waktu komputasi untuk menilai trade-off antara akurasi dan efisiensi. Hasil penelitian menunjukkan bahwa augmentasi GPT-4o secara konsisten meningkatkan performa dibandingkan baseline tanpa penyeimbangan. Temperature 1.5 menghasilkan keluaran paling bervariasi, minim duplikasi, dan stabil dari sisi kinerja. Pada dataset Livin’ by Mandiri, GPT-4o meningkatkan balanced accuracy BiLSTM dari 0.851 menjadi 0.892, sedangkan SMOTE mencapai 0.905. Sementara itu, pada dataset BCA Mobile, GPT-4o menaikkan balanced accuracy BiLSTM dari 0.937 menjadi 0.946, sedangkan SMOTE menghasilkan balanced accuracy sebesar 0.955. Meski SMOTE memberikan peningkatan numerik terbesar, teknik ini membutuhkan waktu komputasi yang lebih lama dibanding augmentasi dengan GPT-4o. Sebaliknya, GPT-4o menawarkan keseimbangan antara akurasi dan efisiensi, sekaligus menghasilkan data sintetis yang bermakna secara linguistik. BiLSTM terbukti konsisten lebih unggul dibandingkan LSTM dalam semua skenario, meskipun dengan konsekuensi waktu pelatihan yang lebih panjang. Studi ini menegaskan bahwa SMOTE tetap menjadi acuan yang kuat dalam penanganan data tidak seimbang karena memberikan performa paling stabil dan unggul pada berbagai metrik evaluasi. Namun, GPT-4o menunjukkan kinerja yang kompetitif sekaligus menawarkan efisiensi komputasi yang lebih baik serta relevansi semantik yang tinggi, sehingga dapat dipertimbangkan ketika terdapat kebutuhan untuk menjaga keseimbangan antara kualitas hasil dan keterbatasan sumber daya. Temuan ini memberikan kontribusi bagi pengembangan strategi penyeimbangan data pada analisis sentimen berbahasa Indonesia, khususnya dalam konteks layanan perbankan digital, sekaligus membuka peluang pemanfaatan model generatif dalam penelitian statistika terapan.
URI: http://repository.ipb.ac.id/handle/123456789/171989
Appears in Collections:MT - School of Data Science, Mathematic and Informatics

Files in This Item:
File Description SizeFormat 
cover_G1501231040_35c1f0001f24403b8f41b6456bf75cbd.pdfCover564.58 kBAdobe PDFView/Open
fulltext_G1501231040_3f80035b1cb34d028ddd0a0bdfe1620b.pdf
  Restricted Access
Fulltext6.46 MBAdobe PDFView/Open
lampiran_G1501231040_8121805c18f74c0c97edb0af2fdf12bd.pdf
  Restricted Access
Lampiran460.34 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.