Praproses Data Teks Twitter pada Sistem Informasi Geografis untuk Kasus Pertanian di Indonesia
Abstract
Twitter merupakan salah satu jejaring sosial yang populer di kalangan
pengguna internet saat ini. Hal ini menyebabkan cepatnya pertumbuhan data yang
dihasilkan oleh Twitter. Sebagian besar data yang dihasilkan oleh Twitter berupa
data teks. Data teks Twitter berisi informasi yang sangat luas terkait berbagai hal,
bisa berupa fakta, peristiwa, perasaan, ataupun pandangan pribadi pengguna
terhadap suatu hal, sehingga data teksnya masih banyak mengandung noise, katakata yang tidak bermakna, tidak terstruktur dan tidak baku. Penelitian ini
bertujuan melakukan praproses data pada data teks Twitter dengan menerapkan
metode text mining yang terdiri atas normalisasi teks dan seleksi fitur. Jumlah kata
unik yang didapatkan dari hasil praproses pada data tweet dan data konten URL
masing-masing sebanyak 84 kata dan 705 kata. Sedangkan persentase jumlah kata
terkait pertanian untuk data tweet dan data konten URL masing-masing sebesar
48.80% dan 23.12%. Hasil praproses disajikan dalam bentuk term document
matrix yang kemudian diubah ke dalam bentuk yang sesuai untuk penyimpanan
data di MongoDB. Data tersebut selanjutnya dapat digunakan untuk analisis
cluster dalam pembangunan sistem informasi geografis.
Collections
- UT - Computer Science [2482]
