Analisis Sentimen Pengguna Aplikasi Female Daily Menggunakan Support Vector Machine: Evaluasi Leksikon Sentistrenghtid dan InSet
Abstract
Female Daily merupakan sebuah aplikasi kecantikan yang menyediakan wadah bagi sesama penggunanya untuk berdiskusi tentang produk kecantikan. Aplikasi ini dapat diunduh salah satunya melalui Google Play dimana penggunanya dapat memberikan ulasan yang berupa komentar positif, netral, maupun negatif. Penelitian ini bertujuan untuk melakukan analisis sentimen terhadap ulasan pengguna aplikasi Female Daily, serta mengidentifikasi perbedaan performa penggunaan kamus dari leksikon sentistrenghtid dan InSet untuk proses pelabelan data pada algoritma Support Vector Machine. Data yang digunakan merupakan data ulasan hasil scrapping dari Google Play dalam rentang waktu Januari 2019 hingga Desember 2023. Grid search digunakan untuk mencari kombinasi fungsi kernel dan hyperparameter (C, ?, P) yang optimal. Pemodelan dilakukan menggunakan metode multi-class Support Vector Machine (SVM) dengan menerapkan algoritma One Against All (OAA). Model SVM pertama dibentuk menggunakan data hasil pelabelan sentistrenghtid dengan fungsi kernel RBF serta nilai C = 5 dan gamma = ’scale’. Selanjutnya, model SVM kedua dibentuk menggunakan data hasil pelabelan InSet dengan fungsi kernel linear serta nilai C = 1. Hasil evaluasi kedua model menggunakan data uji memperlihatkan nilai akurasi model sebesar 78% dan 76%. Selanjutnya, kedua model diterapkan ke seluruh data lalu dievaluasi menggunakan sentimen nilai rating. Akurasi yang didapatkan yaitu sebesar 65% dan 57%. Female Daily is a beauty application that provides a forum for fellow users to discuss beauty products. This application can be downloaded via Google Play, where users can provide reviews in the form of positive, neutral, or negative comments. This research aims to conduct sentiment analysis on the reviews of Female Daily application users and to identify the differences between the performance of using the dictionary from sentistrenghtid and InSet lexicon for data labeling process in the Support Vector Machine algorithm. The data used is review data scraped from Google Play from January 2019 to December 2023. Grid search is used to find the optimal combination of kernel function and hyperparameters (C, ?, P). Modeling was done using the multi-class Support Vector Machine (SVM) method by applying the One Against All (OAA) algorithm. The first SVM model was formed using data from the sentristrenghtid labeling with the RBF kernel function and the values C = 5 and gamma = 'scale'. Then the second SVM model was formed using data from the InSet labeling with the Linear kernel function and the value C = 1. Evaluation results of the two models using test data showed model accuracy values of 78% and 76%. Furthermore, when the two models were applied to all data and then evaluated using the sentiment of rating value, the accuracy obtained was 65% and 57%.