Detecting Suicidal Ideation of Tweets Using Long Short-Term Memory and Fasttext Word Embedding
Date
2023Author
Nataputra, Alvin Christian
Sumertajaya, I Made
Dito, Gerry Alfa
Metadata
Show full item recordAbstract
Suicide is a global health crisis. It has become the second greatest cause of
mortality for people aged 15 to 29. In Indonesia, around five people commit suicide
every day. To avert the tragedy of suicide in diverse high-risk groups, early
detection of suicidal behaviors and adequate and timely interventions are essential.
The younger generation has started to turn to the Internet to seek help and discuss
depression and suicide-related topics. The huge amount of textual data generated
by users on SNS became the main component in building the early detection tool.
For a binary text classification task, LSTM Performs better compared to CNN.
Fasttext word embedding can handle uncommon words, misspelled words, and
word suffixes and prefixes. This research aims to build an accurate text
classification model using LSTM and fasttext to identify tweets containing suicidal
ideation. Without applying any text preprocessing or imbalanced class treatments,
the model had outstanding performance with a 78% sensitivity, 97% specificity,
and an 88% F1 score. No text preprocessing technique led to an improvement in the
F1 score. However, improvements in sensitivity were achieved through the
implementation of class weighting and oversampling. Notably, the ADASYN
technique yielded a substantial sensitivity increase. Bunuh diri merupakan krisis kesehatan global. Bunuh diri telah menjadi
penyebab kematian terbesar kedua bagi kelompok umur 15 hingga 29 tahun. Di
Indonesia, ada sekitar lima korban bunuh diri setiap hari. Untuk mencegah tragedi
bunuh diri dalam berbagai kelompok berisiko tinggi, deteksi dini terhadap perilaku
bunuh diri dan intervensi yang tepat dan cekatan menjadi sangat penting. Generasi
muda beralih ke Internet untuk mencari bantuan dan mendiskusikan topik terkait
depresi dan bunuh diri. Besarnya jumlah data teks yang dihasilkan oleh pengguna
di jejaring sosial menjadi komponen utama dalam membangun alat deteksi dini.
LSTM memiliki performa lebih baik dibandingkan dengan CNN dalam melakukan
klasifikasi teks. Fasttext dapat menangani kata-kata yang tidak umum digunakan,
kata-kata yang salah eja, serta kata berimbuhan dengan baik. Penelitian ini
bertujuan untuk membangun model klasifikasi teks menggunakan LSTM dan
fasttext untuk mengidentifikasi tweet yang mengandung pemikiran bunuh diri.
Tanpa menerapkan metode pra-pemrosesan teks dan penanganan kelas yang tidak
seimbang, model telah memiliki performa yang baik dengan sensitivitas 78%,
spesifisitas 97%, dan skor F1 88%. Seluruh teknik pra-pemrosesan teks yang
digunakan dalam penelitian ini tidak dapat meningkatkan skor F1. Namun,
peningkatan sensitivitas tercapai melalui implementasi pembobotan kelas dan
oversampling. Terutama, teknik ADASYN menghasilkan peningkatan sensitivitas
yang signifikan.