Show simple item record

dc.contributor.advisorAnisa, Rahma
dc.contributor.advisorAidi, Muhammad Nur
dc.contributor.authorAudina, Alifya
dc.date.accessioned2024-07-19T10:29:54Z
dc.date.available2024-07-19T10:29:54Z
dc.date.issued2024
dc.identifier.urihttp://repository.ipb.ac.id/handle/123456789/154373
dc.description.abstractBunuh diri adalah salah satu penyebab kematian tertinggi secara global. Data Twitter dapat digunakan dalam pengidentifikasian pengguna internet yang berkecenderungan bunuh diri. Random forest merupakan salah satu metode yang populer digunakan untuk data berdimensi tinggi dan pada analisis data teks. Penelitian ini bertujuan untuk menggunakan metode random forest untuk memprediksi tweet berkecenderungan bunuh diri dan mengidentifikasi kata-kata yang dianggap penting dalam klasifikasi tweet yang berkecenderungan bunuh diri. Data sebanyak 10,006 tweets memiliki proporsi label 30:70. Penelitian menerapkan model random forest dengan menguji hyperparameter ntree dan mtry dengan 10- fold cross validation. Penelitian ini menerapkan oversampling dan undersampling. Model random forest dengan oversampling dan ntree 50 dan mtry 176 dapat mengklasifikasikan tweet berkecenderungan bunuh diri dengan sensitivitas 0.594 dan f1-score 0.649. Berdasarkan mean decrease accuracy, kata ‘nyerah’ memiliki tingkat kepentingan tertinggi dalam klasifikasi tweet berkecenderungan bunuh diri.
dc.description.abstractSuicide is one of the leading causes of death globally. Twitter data can be used in identifying internet users with suicidal tendencies. Random forest is one of the popular classification method to be used on high dimension data and on text data analysis. This study aims to apply the random forest method to predict suicidal tweets and to identify important words on suicidal tweets classification. The data consists of 10,006 tweets which has label proportion of 30:70. The research applied the random forest model by testing the hyperparameters ntree and mtry with 10- fold cross validation. This study applied oversampling and undersampling. The random forest model with oversampling with ntree value of 50 and mtry value of 176 could classify suicidal tweets with a sensitivity of 0.594 and f1-score of 0.649. Based on its mean decrease accuracy, the word ‘nyerah’ was considered as the most important word in classifying suicidal tweet this study.
dc.description.sponsorship
dc.language.isoid
dc.publisherIPB Universityid
dc.titleKlasifikasi Tweet Berkecenderungan Bunuh Diri Menggunakan Random Forestid
dc.title.alternativeSuicidal Tweet Classification Using Random Forest
dc.typeSkripsi
dc.subject.keywordsuicideid
dc.subject.keywordsocial mediaid
dc.subject.keywordrandom forestid
dc.subject.keywordtext miningid
dc.subject.keywordtext classificationid


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record