Text Clustering Opini Pembelajaran Daring di Indonesia Selama Masa Pandemi COVID-19 pada Media Sosial Twitter
Date
2022-10Author
Tyas, Maulida Fajrining
Kurnia, Anang
Soleh, Agus Mohamad
Metadata
Show full item recordAbstract
Dalam Surat Edaran Menteri Pendidikan dan Kebudayaan Republik
Indonesia Nomor 36962/MPK.A/HK/2020 pada tanggal 17 Maret 2020, dihimbau
bahwa kegiatan pembelajaran dilakukan secara dalam jaringan (daring) serta
bekerja dari rumah dalam rangka mencegah penyebaran corona virus disease
(COVID-19). Pembatasan sosial diberlakukan termasuk pada kegiatan belajar
mengajar di sekolah yang menuai pro dan kontra di tengah masyarakat. Opini
terkait pembelajaran daring banyak tersebar terutama pada media sosial twitter
melalui tulisan pada tweet yang dapat digunakan untuk mengekstrak informasi
terkait topik yang dibicarakan tentang pembelajaran daring selama pandemi di
Indonesia. Kumpulan tweet tersebut dapat dimanfaatkan dengan metode Text
clustering yang merupakan bagian dari text mining di mana metode ini menerapkan
algoritma Unsupervised Machine Learning untuk mengelompokkan data tekstual
(tweet) ke dalam gerombol-gerombol yang memiliki karakteristik yang sama.
K-Means banyak digunakan serta memiliki performa yang baik pada area text
clustering. Namun, permasalahan sering terjadi pada proses Text Clustering di
mana jumlah data tekstual yang tersedia biasanya sangat besar (big data) serta
memiliki peubah (fitur) berdimensi tinggi yang mengakibatkan komputasi yang
sulit dan lama. Hasil gerombol yang diperoleh akan tidak efisien dan rumit untuk
diinterpretasikan sehingga pengaplikasian konsep percontohan digunakan untuk
mereduksi dimensi pada data. Percontohan tersebut bertujuan untuk menjawab
permasalahan dari pereduksian data secara objek maupun peubah tanpa mengurangi
tingkat semantik dalam kumpulan tweet yang diperoleh, sehingga manfaat dari
penyederhanaan tersebut dapat menghasilkan penggerombolan yang lebih
bermakna dan memiliki akurasi yang sama tanpa harus menggunakan keseluruhan
data.
Tujuan penelitian ini adalah mengevaluasi metode percontohan dalam
pembuatan gerombol dibandingkan dengan menggunakan keseluruhan data teks
dengan metode penggerombolan K-Means. Penelitian ini berfokus untuk
mengeksplorasi bagaimana permasalahan data berdimensi tinggi dari kumpulan
tweet dapat diselesaikan menggunakan metode percontohan yang dapat
menggambarkan sebaran opini dari masyarakat Indonesia terhadap fenomena
pembelajaran daring selama pandemi COVID-19.
Pengambilan contoh dari 28300 tweet dilakukan pada enam ukuran contoh
yaitu 250, 500, 2500, 10000, 15000 dan 20000 yang selanjutnya dilakukan prapemrosesan
yang terdiri dari pembersihan tweet, tokenization, case-folding, nonstandard
word handling dan stopword removal. Hasil pra-pemrosesan diubah
menjadi bentuk document-term-matrix yang memuat bobot TF.IDF dari setiap kata
per tweet dan menjadi input untuk algoritma penggerombolan. Optimasi pada
jumlah k gerombol dilakukan pada nilai k = 2 hingga k = 10 masing-masing
sebanyak 10 kali dengan melihat nilai sillhouette yang menghasilkan standar
deviasi paling minimum. Gerombol optimum kemudian divisualisasikan dengan
wordcloud untuk mengidentifikasi topik yang terbentuk. Proses tersebut dilakukan
pada setiap ukuran contoh yang diulang sebanyak 10 kali. Persentase kemunculan
topik di atas 50% dari total 10 ulangan dipertimbangkan sebagai gerombol yang
representatif.
Dari 10 ulangan, ukuran contoh 250 dan 500 hanya mampu menangkap 1 dari
10 topik, ukuran contoh 2500 dan 10000 menghasilkan 4 dari 10 topik, ukuran
contoh 15000 menghasilkan 8 dari 10 topik dan ukuran contoh 20000 menghasilkan
7 dari 10 topik. Ukuran contoh yang diambil kurang dari 50% dari keseluruhan data
cenderung memiliki persentase kemunculan topik yang lebih rendah yaitu sekitar
26%-39%. Persentase kemunculan topik tidak memiliki perubahan pada ukuran
contoh yang terambil mulai dari 50% ke atas sehingga penggunaan ukuran contoh
yang lebih kecil lebih efisien untuk digunakan. Secara waktu eksekusi, ukuran
contoh 15000 lebih cepat dibandingkan dengan ukuran contoh 20000 dan
keseluruhan tweet. Persentase ukuran contoh yang terambil sebesar kurang lebih
50% menghasilkan waktu eksekusi sekitar 5 menit sedangkan waktu yang
dibutuhkan untuk menggunakan keseluruhan tweet mencapai 10 menit.
Penggunaan metode percontohan dapat menjadi solusi dari data tekstual
dalam mereduksi dimensi objek serta peubah untuk memperoleh hasil
penggerombolan optimal di mana besaran ukuran contoh sebesar 50% dari total
keseluruhan tweets sudah mampu untuk mencakup hasil penggerombolan yang
representatif dan efisien dalam segi waktu eksekusi yaitu dua kali lebih cepat
daripada menggunakan keseluruhan tweet. In the Circular Letter of the Minister of Education and Culture of the Republic
of Indonesia Number 36962/MPK.A/HK/2020 on March 17, 2020, learning
activities are recommended to be online and work from home in order to prevent
the spread of corona virus disease (COVID-19). Social restrictions are imposed
including on teaching and learning activities in schools which reap pros and cons
in the community. Opinions related to online learning are widely conveyed,
especially on Twitter through tweets that can be used to extract information related
to topics about online learning during the pandemic in Indonesia. The collection of
tweets can be utilized using text clustering method which is part of text mining
where it applies the unsupervised machine learning algorithm to group textual data
(tweets) into clusters that have the same characteristics.
K-Means is widely used and has good performance in the text clustering area.
However, problems often occur in Text Clustering where the amount of textual data
available is usually very large (big data) and has high-dimensional variables
(features) that result in difficult and time-consuming computations. The cluster
results obtained will be inefficient and complicated to interpret so the sampling
method is used to reduce the dimensions of the data. Sampling method aims to
answer the problem of reducing data by object or variable without reducing the
semantic level in the collection of tweets, so that the benefits of this simplification
can result in clustering that is more meaningful and has the same accuracy without
having to use the entire data.
The purpose of this study is to evaluate the sampling method in making
clusters compared to using the entire tweets with K-Means. This study focuses on
exploring how the problem of high-dimensional data from a collection of tweets
can be solved using a sampling method that can describe the opinions from the
Indonesian people towards the phenomenon of online learning during the COVID-
19 pandemic.
Sampling of 28300 tweets was carried out on six sample sizes, namely 250,
500, 2500, 10000, 15000 and 20000 which were then pre-processed with tweet
cleaning, tokenization, case-folding, non-standard word handling and stopword
removal. The pre-processing results are converted into a document-term-matrix that
contains the TF.IDF weights of each word per tweet and becomes the input for the
clustering algorithm. Optimization of the number of k clusters is carried out at the
value of k = 2 to k = 10 each for 10 times by measuring the sillhouette value that
produces the minimum standard deviation. Optimum clusters are visualized using
wordcloud to identify the topics that were formed. The process is carried out 10
times for each sample sizes. The percentage of topic occurrences above 50% of the
total 10 iterations was considered as a representative cluster.
From 10 iterations, the sample size of 250 and 500 was only able to capture
1 out of 10 topics, the sample size of 2500 and 10000 resulted in 4 of 10 topics, the
sample size of 15000 resulted in 8 of 10 topics and the sample size of 20000 resulted
in 7 of 10 topics. Sample size taken less than 50% of the total data tend to have a
lower percentage of topic occurrences which is around 26%-39%. The percentage
of topic occurrences has no change in the sample size taken from 50% and above
so the use of a smaller sample size is more efficient to use. In terms of execution
time, sample size 15000 is faster than sample size 20000 and overall tweets. The
percentage of sample size taken is approximately 50% resulting in an execution
time of about 5 minutes while the time required to use the entire tweet is up to 10
minutes.
The sampling method can be a solution for textual data to reduce the
dimensions of objects and variables to obtain optimal clustering results where the
sample size of 50% of the total tweets is able to cover clusters that are representative
and efficient in terms of execution time, which is twice as fast as using a whole
tweet.
