Kategorisasi Teks Menggunakan N-gram untuk Dokumen Berbahasa Indonesia
Abstract
Luasnya sumber untuk mendapatkan suatu dokumen dengan topik atau tema tertentu dapat mengakibatkan banyaknya dokumen yang dicari memiliki topik yang sama walaupun dengan sudut pandang yang berbeda. Perbedaan sudut pandang ini kemudian dapat dikelompokkan berdasarkan pembahasan dari tiap sudut pandang. Namun jika dilihat dari akar permasalahan atau topik utamanya maka akan cukup sulit membedakan satu permasalahan dengan permasalahan lainnya. Dalam bidang temu kembali informasi terdapat suatu model pengelompokan dokumen yang disebut kategorisasi teks. Model ini juga memiliki beberapa jenis metode pengelompokan dokumen yang salah satunya adalah metode N-gram. Metode N-gram merupakan suatu metode yang sering digunakan untuk mengenali kesalahan-kesalahan yang sering terjadi pada suatu dokumen. Menggunakan N-gram untuk proses kategorisasi teks, dokumen-dokumen dengan topik utama yang sama dapat dikelompokkan ke dalam beberapa kategori walaupun terdapat kesalahan tekstual.
Collections
- UT - Computer Science [2236]