Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/88925
Title: Normalisasi Teks pada Twitter Berbahasa Indonesia Menggunakan Algoritme Jarak String pada R
Authors: Istiadi, Muhammad Abrar
Saragih, Tri Sony
Issue Date: 2017
Publisher: Bogor Agricultural University (IPB)
Abstract: Data tweet yang ada pada Twitter sering digunakan untuk keperluan text mining. Salah satu contohnya adalah untuk klasifikasi. Namun, data tweet tersebut sering menggunakan kata yang tidak baku sesuai bahasa Indonesia sehingga sulit digunakan untuk text mining. Oleh karena itu perlu dibangun sebuah fungsi yang dapat mengubah setiap kata yang tidak baku tersebut menjadi kata baku. Implementasi dalam pengubahan kata tidak baku menjadi baku pada penelitian ini menggunakan algoritme jarak string yang ada dalam pemrograman R. Data yang digunakan berupa yang kamus berisi kata slang dan perbaikannya beserta kamus yang berisi kata baku. Algoritme jarak string bekerja untuk membandingkan dua string dalam menentukan perbedaan jarak sehingga diperoleh jarak kedua string. Namun, pengubahan string pada penelitian ini tidak hanya berdasarkan jarak antar string, tetapi juga melakukan perubahan kata berdasarkan kamus kata slang. Penelitian ini melakukan normalisasi tweet dalam bahasa Indonesia. Terdapat 200 kata tidak baku dari Twitter yang digunakan untuk pengujian fungsi. Hasil menunjukkan bahwa nilai akurasi tertinggi pada penelitian ini adalah 69% dengan menggunakan metode longest common substring (lcs) dan kamus korpus Kompas yang sesuai KBBI.
URI: http://repository.ipb.ac.id/handle/123456789/88925
Appears in Collections:UT - Computer Science

Files in This Item:
File SizeFormat 
G17tss.pdf
  Restricted Access
11.59 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.