Perbandingan Algoritma Berbasis Pohon untuk Analisis Sentimen pada Aplikasi Milik Pemerintah dan BUMN Tahun 2023
Date
2024Author
Manaf, Silmi Annisa Rizki
Fitrianto, Anwar
Soleh, Agus Mohamad
Metadata
Show full item recordAbstract
Seiring dengan berkembangnya era digitalisasi, semakin banyak upaya yang
dilakukan untuk mempermudah kegiatan masyarakat di berbagai bidang. Saat ini
banyak aplikasi yang dibuat untuk mengatasi hal tersebut. Banyak aplikasi yang
menunjang agar menjadi lebih efisien dan menguntungkan banyak pihak karena
dapat diakses di mana saja. Adanya hal ini mampu mendorong masyarakat dalam
menghadapi era digital di masa depan. Beberapa aplikasi pemerintah dan BUMN
sebagai lembaga nasional cenderung memiliki penilaian yang rendah dan beberapa
belum diketahui masyarakat sehingga perlu adanya evaluasi mengenai sistem dan
fitur yang baik agar masyarakat mudah menggunakannya. Analisis yang cocok
digunakan dalam hal ini adalah analisis sentimen yaitu analisis yang dapat
mengekspresikan opini dari khalayak dalam bentuk ulasan mengenai suatu isu.
Penelitian ini bertujuan untuk mengetahui pendapat pengguna aplikasi pemerintah
dan BUMN secara rinci berdasarkan ulasan, membandingkan algoritma klasifikasi
pohon berdasarkan performa model dalam kondisi data tertentu, serta
membandingkan performa klasifikasi DRF dan algoritma berbasis pohon lainnya
berdasarkan tingkat ketepatan performa model.
Salah satu pendekatan yang dapat digunakan dalam analisis sentimen adalah
metode klasifikasi dengan pembelajaran mesin (machine learning). Penelitian ini
menggunakan empat algoritma klasifikasi, decision tree (DT), extra trees (ET), dan
random forest (RF) dibandingkan dengan algoritma terbaru yang merupakan bentuk
improvisasi dari RF, double random forest (DRF). Keempat algoritma yang
digunakan merupakan algoritma berbasis pohon yang terus berkembang dengan
adanya perubahan yang berbeda di setiap algoritma sehingga diharapkan mampu
memberikan performa yang baik untuk hasil penelitian. DRF sebagai algoritma
baru akan diimplementasikan dalam penelitian analisis sentimen. Data yang
digunakan adalah data empiris dan simulasi. Data simulasi berfokus pada kondisi
data underfit dan nonunderfit. Hal ini berkaitan dengan algoritma DRF yang
mampu meningkatkan performa model ketika data RF mengalami underfit. Data
empiris untuk analisis sentimen menggunakan ulasan aplikasi pilihan hasil web
crawling dari Google Play. Aplikasi pilihan berasal dari aplikasi milik pemerintah
(Info BMKG dan BPOM Mobile) dan aplikasi milik BUMN (MyIndihome dan
MyPertamina).
Proses kajian simulasi diawali dengan membangkitkan gugus data dari pohon
keputusan. Data populasi dibangkitkan sebanyak 300 observasi dengan lima peubah
(Y, X1, X2, X3, X4) dan diulang hingga membentuk 100 data underfit dan 100 data
nonunderfit. Kondisi data bergantung hasil uji akurasi relatif pemodelan RF. Proses
pembentukan data underfit cenderung lebih kompleks dan membutuhkan waktu
lebih lama. Keduanya membutuhkan waktu hingga 14838,15 detik. Pemodelan
empat algoritma berbasis pohon dengan 10-folds cross validation. Nilai median dari
rata-rata akurasi keempat algoritma berbasis pohon data underfit dan nonunderfit
cenderung mirip berada pada rentang 0,66 – 0,67 (66 – 67%) dan ditemukannya
outlier pada data nonunderfit. Dari keempat algoritma berbasis pohon, DT
merupakan algoritma terbaik yang memberikan keragaman data terkecil pada kedua
kondisi data dan mampu menggunakan waktu komputasi yang lebih cepat dan
sederhana. Kajian data empiris dari ulasan aplikasi telah melalui beberapa tahapan
untuk mengubah data teks menjadi bentuk kata, seperti penghapusan data
terduplikasi, case folding, text cleans up, text normalizations, stop words removal,
dan stemming. Proses pelabelan berdasarkan hasil pelabelan rating, sentiment
scoring, lexicon-based, dan validasi yang dikategorikan ke dalam kelas positif,
netral, dan negatif dengan peubah prediktor berasal dari hasil tokenisasi unigram
dan pembobotan dengan metode term frequency-inverse document frequency.
Proses analisis melakukan pemilihan peubah secara manual dan menggunakan
information gain.
Penarikan data pada Agustus 2023 mengambil ulasan aplikasi berdasarkan
ulasan yang paling relevan dan terbaru. Hasil analisis terhadap aplikasi Info BMKG,
BPOM Mobile, MyIndihome, dan MyPertamina berada dalam periode waktu
September 2018 – Agustus 2023 cenderung ke arah positif karena banyaknya ulasan
pada kategori tersebut berdasarkan pelabelan rating dan sentiment scoring.
Pemodelan pertama, sebagai perbandingan metode pemilihan peubah. Hasil ratarata
akurasi data tanpa pemilihan peubah lebih unggul dibandingkan kedua metode
lainnya. Pemodelan kedua sebagai perbandingan kinerja praproses data, hasilnya
menunjukkan tahapan praproses lengkap dipilih dengan berbagai pertimbangan
dibandingkan dengan tahapan praproses tanpa stop words removal. Pemodelan
ketiga untuk membanding kinerja metode pelabelan. Hasilnya menunjukkan bahwa
pelabelan validasi memberikan pengaruh yang cukup signifikan karena dapat
meningkatkan performa hingga 20%. Pelabelan terbaik lainnya dengan sentiment
scoring memperoleh rata-rata akurasi yang lebih unggul. Pemodelan terakhir
membandingkan keempat algoritma berbasis pohon. Hasil analisis secara
keseluruhan menghasilkan algoritma ET sebagai algoritma terbaik dalam kasus ini
dan untuk algoritma RF maupun DRF hasil rata-rata akurasi cenderung hampir
mirip. Sehingga untuk analisis sentimen dalam perbandingan antara DRF dengan
ketiga algoritma berbasis pohon lainnya menunjukkan bahwa algoritma DRF
cenderung membutuhkan waktu yang lebih lama dibandingkan dengan ET dengan
perolehan nilai akurasi yang tidak jauh berbeda. Dengan kata lain algoritma ET
merupakan algoritma terbaik dalam kasus ini karena mampu memberikan hasil
performa yang baik pada beberapa kondisi dan waktu komputasi yang cepat.
Selain hasil perbandingan nilai performa model, dari ulasan aplikasi dapat
diperoleh pendapat pengguna aplikasi secara rinci berdasarkan hasil visualisasi
awan kata. Pengguna aplikasi banyak memberikan umpan balik positif, netral, dan
negatif mengenai aplikasi yang digunakan. Ulasan yang disampaikan oleh
pengguna baik pujian, kritik, saran, dan opini lain diharapkan dapat memberikan
informasi berharga bagi pengembang aplikasi dan pembuat keputusan bisnis.
Adanya kritik dan saran negatif dari pengguna aplikasi dapat dijadikan sebagai
perbaikan untuk aplikasi tersebut menjadi lebih baik sebagai bentuk improvisasi
sedangkan kritik dan saran positif dapat menjadi motivasi agar aplikasi tetap
mempertahankan yang sudah baik dan mengembangkan hal baru untuk kemajuan
aplikasi itu sendiri kedepannya. Along with the development of the digitalization era, more and more efforts
are made to facilitate community activities in various fields. Currently, there are so
many applications that are made to overcome this. Many applications support it to
be more efficient and can be accessed anywhere. The existence of this applications
is able to encourage people in facing the digital era in the future. Some applications
that owned by the government and state-owned enterprises (BUMN) as national
institutions tend to have low ratings and some are not yet known to the public so
there is need evaluation of good systems and features so that people can easily use
it. A suitable analysis used in this case is sentiment analysis which is an analysis
that can express opinions from the audience in the form of reviews on an issue. The
outline of this research is to find out the opinions of the applications users in detail
based on selected application reviews, compare tree-based classification algorithms
based on model performance under certain data conditions, and compare the
performance of DRF classification and other tree-based algorithms based on the
level of accuracy of model performance.
One approach that can be used in sentiment analysis is machine learning
classification methods. This research uses four classification algorithms, decision
tree (DT), extra tree (ET), and random forest (RF) to be compared to the latest
algorithm which is improvised from RF, double random forest (DRF). The four
algorithms are tree-based algorithms that continue to evolve with different changes
in each algorithm that expected to provide good model performance for the research
results. DRF as a new algorithm will be implemented in sentiment analysis research.
The data that used in this research are simulated and empirical data. Simulation data
focuses on underfit and nonunderfit data conditions. This is related to the DRF
algorithm which is able to improve model performance when RF data is underfit.
Empirical data for sentiment analysis used reviews from selected applications from
web crawling results from Google Play. The selected applications came from the
applications that owned by the government (Info BMKG and BPOM Mobile) and
by BUMN (MyIndihome and MyPertamina).
The simulation study process begins with generating data from the decision
tree. The population data was generated as 300 observations with five variables
(Y, X1, X2, X3, X4) and repeated to make 100 underfit data and 100 nonunderfit data.
The conditions of the data depend on the results of the RF modelling relative
accuracy test. The process of generating underfit data tends to be more complex and
takes longer, both took up to 14838,15 seconds. Modelling four tree-based
algorithms with 10-folds cross validation. The median value of the average of four
tree-based algorithms for underfit and nonunderfit data tends to be similar in the
range of 0,66 – 0,67 (66 – 67%) and outliers are found in the nonunderfit data. In
conclusion, DT is the best algorithm that provides the smallest data diversity in both
data conditions and it was able to use simpler and faster in computing time. The
study of empirical data from applications reviews has gone through several stages
to convert text data into word form, such as duplicated data removal, case folding,
text cleaning up, text normalizations, stop words removal, and stemming. The
labelling process is based on the labelling of rating, sentiment scoring, lexiconbased,
and validation then categorized into positive, neutral, and negative classes
with predictor variables derived from the results of unigram tokenization and
weighting with the term frequency-inverse document frequency method. The
analysis process uses information gain value and manually selects variables.
In August 2023, data took by the application reviews based on the most
relevant and the newest ones, The results of the analysis of Info BMKG, BPOM
Mobile, MyIndihome, and MyPertamina in the time of period September 2018 –
August 2023 tend to be positive because of the large number of reviews in that
category based on rating labelling and sentiment scoring labelling. The first model
as comparison of variable selection methods. The average accuracy of data without
variable selection is superior to other two methods. The second model as a
comparison of data preprocessing performance, the results show that the full
preprocessing stage is selected with various considerations compared to the
preprocessing stage without stop words removal. The third model is to compare the
performance of labelling methods. The results show that validation labelling has a
significant effect because it can improve performance by up to 20%. The best
labelling with sentiment scoring obtained a good average accuracy. The last model
compares four tree-based algorithms. So overall for sentiment analysis in the
comparison between DRF and the other three tree-based algorithms, it shows that
the DRF algorithm tends to take longer than ET with the acquisitions of accuracy
values that are not much different. In the other words, the ET algorithm is the best
algorithm in this case because it is able to provide good performance results in
several conditions with fast computing time.
In addition to the results of the comparison of model performance values from
the application reviews, the opinions of application users can be obtained in detail
based on the results of word cloud visualization. Many applications users provide
positive, neutral, and negative feedback about the application used. Reviews
submitted by users both criticism, suggestions, and opinions are expected to provide
valuable information for application developers and business decision makers. The
existence of negative criticism and suggestions from application users can be used
as an improvement for the application to be better as a form of improvisation while
positive criticism and suggestions can be a motivation for the application to
maintain what is already good and develop new things for the future progress of the
application itself.