Normalisasi Teks pada Twitter Berbahasa Indonesia Menggunakan Algoritme Jarak String pada R

Saragih, Tri Sony

dc.contributor.advisor	Istiadi, Muhammad Abrar
dc.contributor.author	Saragih, Tri Sony
dc.date.accessioned	2018-01-11T07:39:02Z
dc.date.available	2018-01-11T07:39:02Z
dc.date.issued	2017
dc.identifier.uri	http://repository.ipb.ac.id/handle/123456789/88925
dc.description.abstract	Data tweet yang ada pada Twitter sering digunakan untuk keperluan text mining. Salah satu contohnya adalah untuk klasifikasi. Namun, data tweet tersebut sering menggunakan kata yang tidak baku sesuai bahasa Indonesia sehingga sulit digunakan untuk text mining. Oleh karena itu perlu dibangun sebuah fungsi yang dapat mengubah setiap kata yang tidak baku tersebut menjadi kata baku. Implementasi dalam pengubahan kata tidak baku menjadi baku pada penelitian ini menggunakan algoritme jarak string yang ada dalam pemrograman R. Data yang digunakan berupa yang kamus berisi kata slang dan perbaikannya beserta kamus yang berisi kata baku. Algoritme jarak string bekerja untuk membandingkan dua string dalam menentukan perbedaan jarak sehingga diperoleh jarak kedua string. Namun, pengubahan string pada penelitian ini tidak hanya berdasarkan jarak antar string, tetapi juga melakukan perubahan kata berdasarkan kamus kata slang. Penelitian ini melakukan normalisasi tweet dalam bahasa Indonesia. Terdapat 200 kata tidak baku dari Twitter yang digunakan untuk pengujian fungsi. Hasil menunjukkan bahwa nilai akurasi tertinggi pada penelitian ini adalah 69% dengan menggunakan metode longest common substring (lcs) dan kamus korpus Kompas yang sesuai KBBI.	id
dc.language.iso	id	id
dc.publisher	Bogor Agricultural University (IPB)	id
dc.subject.ddc	Computer Sciences	id
dc.subject.ddc	Text Processing	id
dc.subject.ddc	2017	id
dc.subject.ddc	Bogor, Jawa Barat	id
dc.title	Normalisasi Teks pada Twitter Berbahasa Indonesia Menggunakan Algoritme Jarak String pada R	id
dc.type	Undergraduate Thesis	id
dc.subject.keyword	jarak string	id
dc.subject.keyword	kata baku	id
dc.subject.keyword	kata tidak baku	id
dc.subject.keyword	pengubahan kata	id
dc.subject.keyword	Twitter	id

Files in this item

Name:: G17tss.pdf
Size:: 11.31Mb
Format:: PDF
Description:: Fulltext

View/Open

This item appears in the following Collection(s)

UT - Computer Science [2254]

Show simple item record