Perbandingan Clustering K-Means dan HDBSCAN pada Neural Topic Modeling Menggunakan Embedding IndoSBERT Terhadap Ulasan Pengguna Aplikasi Mytelkomsel
Abstract
Ketergantungan masyarakat terhadap layanan telekomunikasi semakin memperkuat peran penyedia akses telekomunikasi yang andal. Telkomsel, sebagai salah satu operator seluler terbesar di Indonesia, menghadirkan aplikasi MyTelkomsel untuk mempermudah pelanggan dalam mengakses berbagai layanan. Aplikasi ini telah menerima jutaan ulasan yang mencerminkan beragam pengalaman dan penilaian pengguna. Penelitian ini bertujuan untuk membandingkan kinerja algoritma K-Means dan HDBSCAN dalam BERTopic berdasarkan metrik koherensi dan keragaman topik, serta mengidentifikasi topik yang dibahas dalam ulasan pengguna MyTelkomsel. Sebanyak 88.057 ulasan dikumpulkan dari periode 1 November 2024 hingga 28 Februari 2025. Pemodelan topik dilakukan menggunakan BERTopic dengan embedding kalimat dari model IndoSBERT, reduksi dimensi dengan UMAP, dan penggerombolan menggunakan K-Means serta HDBSCAN. Representasi topik diperoleh melalui pembobotan c
TF-IDF dan KeyBERTInspired untuk meningkatkan kualitas kata kunci. Evaluasi menggunakan metrik koherensi dan keragaman menunjukkan bahwa konfigurasi terbaik diperoleh dari K-Means dengan representasi topik bigram dan penyertaan hiperparameter stopwords serta KeyBERTInspired. Konfigurasi ini menghasilkan skor koherensi sebesar 0,76 dan keragaman 0,94. Topik dominan yang teridentifikasi mencakup keluhan terkait ketidakstabilan sinyal, mahalnya paket data, masalah performa aplikasi, serta beberapa topik positif yang menyoroti kepuasan dan apresiasi terhadap fitur layanan. The public's dependence on telecommunication services further strengthens the role of reliable telecommunication access providers. Telkomsel, one of the largest mobile operators in Indonesia, has launched the MyTelkomsel app to make it easier for customers to access various services. The app has received millions of reviews reflecting a wide range of user experiences and assessments. This study aims to compare the performance of the K-Means and HDBSCAN algorithms in BERTopic based on topic coherence and diversity metrics, as well as to identify the topics discussed in MyTelkomsel user reviews. A total of 88,057 reviews were collected from November 1, 2024, to February 28, 2025. Topic modeling was performed using
BERTopic with sentence embeddings from the IndoSBERT model, dimension reduction with UMAP, and clustering using K-Means and HDBSCAN. Topic
representations were obtained through c-TF-IDF and KeyBERTInspired weighting to improve keyword quality. Evaluation using coherence and diversity metrics shows that the best configuration is obtained from K-Means with bigram topic representation, inclusion of stopwords, and KeyBERTInspired. This configuration yielded a coherence score of 0.76 and a diversity of 0.94. The dominant topics identified include complaints
related to signal instability, expensive data packages, application performance issues, and some positive topics highlighting satisfaction and appreciation for service features.
