Please use this identifier to cite or link to this item:
http://repository.ipb.ac.id/handle/123456789/171514Full metadata record
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.advisor | Afendi, Farit Mochamad | - |
| dc.contributor.advisor | Oktarina, Sachnaz Desta | - |
| dc.contributor.author | Itqoni, Muhammad Hasan | - |
| dc.date.accessioned | 2025-11-16T14:51:39Z | - |
| dc.date.available | 2025-11-16T14:51:39Z | - |
| dc.date.issued | 2025 | - |
| dc.identifier.uri | http://repository.ipb.ac.id/handle/123456789/171514 | - |
| dc.description.abstract | Perkembangan pesat teknologi informasi telah mendorong pertumbuhan e-commerce di Indonesia, termasuk pada sektor produk kecantikan dan perawatan tubuh seperti parfum lokal. Minat konsumen terhadap parfum lokal terus meningkat, dipengaruhi oleh kualitas yang bersaing, harga terjangkau, serta kesadaran terhadap produk ramah lingkungan. Aktivitas pembelian daring turut menghasilkan banyak ulasan dari konsumen yang menjadi sumber informasi penting bagi calon pembeli dalam menilai kualitas produk. Ulasan-ulasan ini memiliki nilai strategis apabila dianalisis secara sistematis melalui analisis sentimen. Namun, tantangan seperti ketidakseimbangan kelas data dan keberagaman struktur teks menjadikan proses ini tidak sederhana. Untuk mengatasi tantangan tersebut, penelitian ini mengadopsi pendekatan berbasis Natural Language Processing (NLP) dengan integrasi teknik pembangkitan data sintetis menggunakan model GPT-4 serta evaluasi berbagai metode ekstraksi fitur dan model klasifikasi. Model GPT-4 digunakan untuk mengatasi ketidakseimbangan data kelas sentimen dengan menghasilkan data sintetis secara kalimat per kalimat. Pendekatan ini terbukti mampu memperkaya data minoritas dengan mempertahankan makna semantik yang kontekstual. Selain itu, penelitian ini juga mengevaluasi efektivitas berbagai metode ekstraksi fitur seperti TF-IDF, Bag of Words (BoW), serta word embedding berbasis FastText. Penerapan bigram dan trigram pada metode ekstraksi fitur juga ditelusuri dampaknya terhadap performa klasifikasi. Di samping itu, emoji dalam teks ulasan turut dikaji karena potensinya dalam merepresentasikan ekspresi emosional pengguna secara eksplisit, yang dapat memperkuat sinyal sentimen dalam analisis. Penelitian ini bertujuan untuk meningkatkan kualitas klasifikasi sentimen ulasan parfum lokal melalui integrasi tiga pendekatan utama: penyeimbangan data menggunakan data sintetis GPT-4, pemilihan metode ekstraksi fitur teks yang optimal, serta analisis pengaruh keberadaan emoji terhadap hasil klasifikasi. Selanjutnya, dilakukan evaluasi terhadap berbagai algoritma klasifikasi, baik machine learning seperti SVM, XGBoost, dan Decision Tree, maupun deep learning seperti CNN, LSTM, dan BiLSTM untuk mengidentifikasi kombinasi metode terbaik yang mampu menangkap opini konsumen secara representatif dan kontekstual. Data penelitian ini diperoleh melalui proses scraping terhadap ulasan pelanggan pada tujuh merek parfum lokal terbaik di Indonesia dari salah satu platform e-commerce, menghasilkan 4467 ulasan yang dilabeli secara manual berdasarkan aspek kualitas produk, harga, pengiriman dan pengemasan, pelayanan dan pemesanan, dan pengalaman umum. Setelah melalui proses pembangkitan data sintetis dengan GPT-4, data sintetis kemudian digabungkan dengan data empiris untuk membentuk korpus data yang lebih seimbang. Korpus akhir mencakup lebih dari 9600 ulasan dengan distribusi yang relatif merata antara sentimen positif, negatif, dan netral. Distribusi ini tetap mempertahankan konteks ulasan asli berdasarkan aspek kualitas produk, harga, pengiriman dan pengemasan, pelayanan dan pemesanan, dan pengalaman umum. Hasil penelitian menunjukkan bahwa penerapan data sintetis dengan GPT-4 secara signifikan meningkatkan performa model klasifikasi, khususnya pada data yang sebelumnya tidak seimbang. Model deep learning seperti CNN dan BiLSTM menunjukkan performa terbaik setelah proses penyeimbangan, dengan peningkatan balanced accuracy mencapai lebih dari 20%. Penggunaan emoji dalam data ulasan juga terbukti memberikan pengaruh positif, meskipun peningkatannya relatif kecil namun signifikan secara statistik. Teknik ekstraksi fitur berbasis n-gram, khususnya bigram, memberikan hasil yang lebih baik dibandingkan unigram, sedangkan word embedding FastText terbukti unggul dalam menangkap makna semantik pada model deep learning. Secara keseluruhan, penelitian ini menegaskan bahwa integrasi teknik NLP modern dapat meningkatkan efektivitas analisis sentimen, dan bahwa ulasan konsumen terutama yang mengandung emoji dapat menjadi representasi yang kaya atas kepuasan terhadap kualitas produk dan layanan dalam pengalaman membeli parfum lokal secara daring. | - |
| dc.description.abstract | The rapid development of information and communication technology has significantly driven the growth of e-commerce in Indonesia, including in the beauty and personal care sectors such as local perfumes. Consumer interest in local perfumes has increased, supported by competitive quality, affordable prices, and a growing awareness of environmentally friendly products. Online purchases have also led to a large number of consumer reviews, which serve as valuable information for prospective buyers when evaluating product quality. These reviews hold strategic value when systematically analyzed using sentiment analysis. However, challenges such as class imbalance and textual diversity make this process complex. To address these challenges, this study adopts a Natural Language Processing (NLP)-based approach by integrating synthetic data generation using the GPT-4 model, alongside the evaluation of various feature extraction and classification models. GPT-4 is employed to address class imbalance by generating sentence-level synthetic data, which enriches minority class data while preserving semantic meaning. The study further explores the effectiveness of various feature extraction methods such as TF-IDF, Bag of Words (BoW), and FastText-based word embeddings. The impact of incorporating bigrams and trigrams in feature extraction is also examined. Additionally, the presence of emojis in review texts is analyzed for their potential to explicitly express users’ emotional sentiments, which could enhance the sentiment signal captured in the analysis. This research aims to improve the quality of sentiment classification for local perfume product reviews through three key approaches: data balancing using GPT-4-generated synthetic data, optimal selection of text feature extraction methods, and analysis of the influence of emojis on classification results. A performance comparison between machine learning algorithms such as SVM, XGBoost, and Decision Tree, and deep learning approaches such as CNN, LSTM, and BiLSTM, is conducted to identify the most effective model for representing and understanding consumer opinions. The dataset used in this study was collected through web scraping of customer reviews on seven top local perfume brands in Indonesia from a major e-commerce platform, resulting in 4,467 manually labeled reviews based on aspects such as product quality, price, packaging, service, and overall experience. Following the synthetic data generation using GPT-4, the synthetic and empirical data were merged into a unified corpus. This combined dataset comprises over 9,600 reviews, evenly distributed across positive, negative, and neutral sentiment classes while maintaining the original contextual balance across key product and service aspects. The results of the study demonstrate that GPT-4-based synthetic data generation significantly enhances classification performance, especially in previously imbalanced datasets. Deep learning models such as CNN and BiLSTM achieved the highest performance improvements, with balanced accuracy increases of over 20%. While the contribution of emojis was relatively small in numerical terms, it was statistically significant and positively impacted classification performance. Feature extraction using n-grams, particularly bigrams, showed consistent improvements over unigrams, and FastText embeddings outperformed traditional methods in semantic representation when paired with deep learning models. Overall, this study highlights the effectiveness of modern NLP techniques in improving sentiment analysis and affirms that consumer reviews—especially those containing emojis—serve as rich indicators of satisfaction with both product quality and service experiences in the context of online purchases of local perfumes. | - |
| dc.description.sponsorship | null | - |
| dc.language.iso | id | - |
| dc.publisher | IPB University | id |
| dc.title | Penanganan Data Tidak Seimbang pada Analisis Sentimen Ulasan Parfum dengan GPT-4: Perbandingan Ekstraksi Fitur, Emoji, dan Metode Klasifikasi | id |
| dc.title.alternative | null | - |
| dc.type | Tesis | - |
| dc.subject.keyword | analisis sentimen | id |
| dc.subject.keyword | GPT-4 | id |
| dc.subject.keyword | pembangkitan data sintetis | id |
| dc.subject.keyword | data tidak seimbang | id |
| dc.subject.keyword | ekstraksi fitur | id |
| dc.subject.keyword | emoji | id |
| dc.subject.keyword | machine learning | id |
| dc.subject.keyword | deep learning | id |
| Appears in Collections: | MT - School of Data Science, Mathematic and Informatics | |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| cover_G1501221029_06665f41690043959b720efc2da5d26f.pdf | Cover | 882.46 kB | Adobe PDF | View/Open |
| fulltext_G1501221029_a05150541910436fa62dea0c9020f062.pdf Restricted Access | Fulltext | 7.35 MB | Adobe PDF | View/Open |
| lampiran_G1501221029_e900989864ea47a398aa9ca380142481.pdf Restricted Access | Lampiran | 784.54 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.