Model Optimasi untuk Teknik Seleksi Fitur pada Sentiment Analysis menggunakan Swarm Intelligence dan Fungsi Transfer
Date
2026Author
Kristiyanti, Dinar Ajeng
Sitanggang, Imas Sukaesih
Annisa
Nurdiati, Sri
Metadata
Show full item recordAbstract
Sentiment Analysis (SA) penting dalam menambang opini di Twitter untuk meningkatkan kualitas produk, layanan pelanggan, maupun bahan evaluasi kebijakan. SA adalah tugas sulit terutama ketika berhadapan dengan dataset yang sangat besar karena teknik di balik SA menghasilkan representasi dimensi tinggi. Karena kompleksitas SA, terutama dengan kumpulan data besar yang kaya akan fitur, perlunya algoritma seleksi fitur untuk secara efektif mengelola ruang data berdimensi tinggi yang tidak dapat ditangani dengan machine learning konvensional. Salp Swarm Algorithm (SSA) merupakan algoritma optimasi metaheuristik bio-terinspirasi berbasis Swarm-Intelligence yang dapat digunakan sebagai Feature Selection Technique (FST), namun SSA memiliki kelemahan yaitu kurang optimal dan cenderung lambat mencapai konvergensi dalam proses seleksi fitur terutama pada masalah biner.
Penelitian ini bertujuan untuk mengembangkan algoritma SSA-TF dengan memperbaiki SSA menggunakan 21 tipe Transfer Function (TF), seperti S-TF, V- TF, X-TF, U-TF, dan Z-TF. Selain itu, dikembangkan satu tipe baru dari TF, yaitu varian New V-TF. Tipe baru ini dikembangkan dari varian Z-TF yang memiliki kelebihan kemampuan eksplorasi yang sangat tinggi, dan bentuknya menyerupai varian V-TF dengan formula matematika yang lebih sederhana dari V-TF konvensional yang memiliki kelebihan eksploitasi yang sangat tinggi. Hal ini menjadi peluang model memiliki kompleksitas yang lebih rendah juga seimbang dalam eksplorasi dan eksploitasi.
Tujuan berikutnya adalah mengembangkan dan mengimplementasikan model Salp Swarm Algorithm-Transfer Function (SSA-TF) sebagai teknik seleksi fitur yang optimal untuk sentiment analysis berbasis machine learning, dengan mengevaluasi kinerjanya menggunakan data opini bahasa Indonesia dari Twitter dalam hal ini studi kasus kebakaran hutan dan lahan di Indonesia serta mengintegrasikannya ke dalam sistem informasi berbasis web. Tahapan utama penelitian ini diantaranya studi literatur, pengumpulan data, pengembangan algoritma SSA konvensional menggunakan TF (SSA-TF), dan pengembangan model SSA-TF sebagai seleksi fitur dalam sentiment analysis, diantaranya pengumpulan data, text pre-processing, pelabelan, pemisahan data, seleksi fitur menggunakan algoritma optimasi SSA-TF, Salp Swarm Algorithm (SSA), Particle Swarm Optimization (PSO), Ant Lion Optimization (ALO), pemodelan menggunakan machine learning konvensional seperti K-Nearest Neighbor (KNN), Naïve Bayes (NB), dan Support Vector Machine (SVM), evaluasi dan validasi model berdasarkan akurasi, presisi, recall, skor F-1, waktu pemrosesan, dan nilai fitness, serta website deployment.
Kebaruan penelitian ini adalah model optimasi baru dan optimal sebagai FST untuk SA, yaitu algoritma SSA-New V-TF, sehingga konvergensi dalam proses seleksi fitur lebih cepat, mencapai global optima, dan hasil fitur yang dihasilkan informatif, relevan, meningkatkan nilai akurasi, serta waktu pemrosesan hasil klasifikasi SA. Selain itu, algoritma SSA-New V-TF diterapkan sebagai algoritma FST baru untuk menganalisis sentimen kebakaran hutan dan lahan (karhutla) berdasarkan opini publik di Twitter berbahasa Indonesia.
Hasil penelitian menggunakan dataset Bahasa Indonesia memperoleh akurasi tertinggi sebesar 89,95% dengan waktu pemrosesan hanya 29,74 detik untuk model SVM-SSA New V4-TF. Selain itu, hasil uji statistik t-test memperkuat temuan bahwa SSA New V-TF unggul dalam hal akurasi dibandingkan SSA-S-TF, SSA-V- TF, SSA-X-TF, SSA-U-TF, SSA-Z-TF (p>0,05). Namun, pada metrik waktu pemrosesan, sebagian besar SSA New V-TF lebih unggul, kecuali model SSA-S- TF dan SSA-U-TF dengan pengklasifikasi KNN yang memperoleh nilai p < 0,05. Berdasarkan hasil tersebut, algoritma yang dikembangkan yaitu SSA-TF dengan varian New V-TF dapat bekerja lebih baik sebagai model pemilihan fitur untuk sentiment analysis. Hasil ini diharapkan dapat menjadi solusi FST baru untuk penerapan seleksi fitur pada kasus sentiment analysis dengan data yang besar. Sentiment Analysis (SA) plays an important role in mining opinions on Twitter to improve product quality and customer service. SA is challenging, especially when dealing with large datasets, because the techniques underlying SA produce high-dimensional representations. Due to this complexity—particularly with large datasets rich in features—there is a need for feature selection algorithms to effectively manage high-dimensional data spaces that cannot be efficiently handled using conventional machine learning techniques. The Salp Swarm Algorithm (SSA) is a bio-inspired metaheuristic optimization algorithm based on Swarm Intelligence that can be used as a Feature Selection Technique (FST); however, SSA has limitations, such as suboptimal performance and a tendency to converge slowly, particularly in binary feature selection problems.
This study aims to develop the SSA-TF algorithm by enhancing SSA using 21 Transfer Functions (TF) types, including S-TF, V-TF, X-TF, U-TF, and Z-TF. In addition, a new type of TF, called New V-TF, is introduced. This new variant is inspired by Z-TF, which has high exploration capability, and is shaped similarly to V-TF but with a simpler mathematical formula. While the original V-TF is known for its strong exploitation ability, the New V-TF is designed to balance both exploration and exploitation with lower computational complexity.
The next objective is to develop and implement the Salp Swarm Algorithm- Transfer Function (SSA-TF) model as an optimal feature selection technique for machine-learning-based sentiment analysis. Its performance is evaluated using Indonesian-language opinion data from Twitter, specifically focusing on the case of forest and land fires in Indonesia. The SSA-TF model is then integrated into a web-based information system. The main research stages include literature review, data collection, enhancement of the conventional SSA algorithm using TFs (SSA- TF), and development of the SSA-TF model for feature selection in sentiment analysis. This includes data collection, text preprocessing, labeling, data splitting, feature selection using SSA-TF, Salp Swarm Algorithm (SSA), Particle Swarm Optimization (PSO), Ant Lion Optimization (ALO), modeling using conventional machine learning classifiers such as K-Nearest Neighbor (KNN), Naïve Bayes (NB), and Support Vector Machine (SVM), model evaluation and validation based on accuracy, precision, recall, F1-score, processing time, and fitness value, as well as website deployment.
The novelty of this study lies in developing a new and optimal optimization model as an FST for SA, namely the SSA-New V-TF algorithm. This model enables faster convergence in the feature selection process, achieves global optima, and produces informative and relevant features, improving sentiment classification result’s accuracy and processing time. Moreover, based on public opinion from Indonesian-language Twitter, the SSA-New V-TF algorithm is applied as a new FST algorithm for analyzing sentiment related to forest and land fires (karhutla) scocial media-based.
The results of this study using an Indonesian-language dataset showed the highest accuracy of 89.95% with a processing time of only 29.74 seconds using the SVM-SSA New V4-TF model. In addition, the results of the t-test statistical test strengthen the finding that SSA New V-TF is superior in terms of accuracy compared to SSA-S-TF, SSA-V-TF, SSA-X-TF, SSA-U-TF, and SSA-Z-TF (P>0.05). However, in the processing time metric, most of the SSA New V-TF models are superior, except for the SSA-S-TF and SSA-U-TF models with the KNN classifier which obtained a p value < 0.05. These findings indicate that the developed SSA-TF algorithm with the New V-TF variant performs better as a model for feature selection in sentiment analysis. This outcome is expected to offer a new FST solution for large-scale sentiment analysis applications.
