dc.description.abstract | Data tweet yang ada pada Twitter sering digunakan untuk keperluan text
mining. Salah satu contohnya adalah untuk klasifikasi. Namun, data tweet tersebut
sering menggunakan kata yang tidak baku sesuai bahasa Indonesia sehingga sulit
digunakan untuk text mining. Oleh karena itu perlu dibangun sebuah fungsi yang
dapat mengubah setiap kata yang tidak baku tersebut menjadi kata baku.
Implementasi dalam pengubahan kata tidak baku menjadi baku pada penelitian ini
menggunakan algoritme jarak string yang ada dalam pemrograman R. Data yang
digunakan berupa yang kamus berisi kata slang dan perbaikannya beserta kamus
yang berisi kata baku. Algoritme jarak string bekerja untuk membandingkan dua
string dalam menentukan perbedaan jarak sehingga diperoleh jarak kedua string.
Namun, pengubahan string pada penelitian ini tidak hanya berdasarkan jarak antar
string, tetapi juga melakukan perubahan kata berdasarkan kamus kata slang.
Penelitian ini melakukan normalisasi tweet dalam bahasa Indonesia. Terdapat 200
kata tidak baku dari Twitter yang digunakan untuk pengujian fungsi. Hasil
menunjukkan bahwa nilai akurasi tertinggi pada penelitian ini adalah 69% dengan
menggunakan metode longest common substring (lcs) dan kamus korpus Kompas
yang sesuai KBBI. | id |