Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/56568
Title: Dictionary-Based Stemming Model for Documents in Sundanese Language
Model Stemming Berbasis Kamus untuk Dokumen Berbahasa Sunda
Authors: Buono, Agus
Ridha, Ahmad
Purwoko, Andhy
Keywords: stemming
prefix
infix
sufix
confix
ambifix
repeated words
Issue Date: 2011
Publisher: IPB ( Bogor Agricultural University )
Abstract: The use of local languanges tends to vanish, and one of the reasons is the reluctance of local people to practice their own language. Research on the local language, particulary Sundanesse, is also not considered to be interesting topic. More documents in Sundanesse have been digitized, but research on the documents is still limited. Information Retrieval (IR) has been used to explore information from tested documents. In IR, the documents will be parsed to obtain their tokens. The tokens will be saved in index files. In order to make the IR optimal, the index files should be created as small as possible. Therefore, discarding unimportant words should be done. Prefixes, infixes, sufixes, confixes, ambifixes, and repeated patterns in the tokens will be eliminated. This elimination proccess is called stemming. The stemming algorithm is based on dictionary, i.e., the stemmed words will be compared with dictionary. This algorithm has produced the expected words with 91.38% accuracy. In the future researches, this algorithm can be deployed on seacrh engine, Natural Language Processing (NLP) or machine translation for Sundanese.
Penggunaan bahasa daerah cenderung menuju ke arah kepunahan. Hal ini disebabkan karena makin enggannya orang daerah menggunakan Bahasa daerahnya sendiri. Penelitian terhadap bahasa daerah khususnya Bahasa Sunda juga bukan merupakan bahasan yang menarik. Telah ada dokumen berbahasa Sunda yang sudah berbentuk file digital, namun belum banyak penelitian terhadap dokumen berbahasa Sunda tersebut. Salah satu metode untuk mengeksplorasi informasi dari dokumen-dokumen Bahasa Sunda adalah sistem temu kembali informasi. Dalam Sistem Temu Kembali Informasi dokumen-dokumen tersebut akan di-parse untuk mendapatkan token. Token-token tersebut akan disimpan dalam sebuah file indeks. Agar sistem temu kembali optimal maka file indeks dibuat sekecil mungkin. Agar file indeks kecil, proses parsing selanjutnya adalah penghilangan kata yang tidak penting. Selanjutnya token-token tersebut akan dihilangkan awalan, sisipan, akhiran, imbuhan terbelah dan imbuhan gabungannya. Proses tersebut diberi nama stemming. Algoritme stemming yang dirancang adalah algoritme berdasarkan kamus. Algoritme akan menghilangkan awalan, sisipan, akhiran imbuhan terbelah dan imbuhan gabungan serta kata ulang, dan pada setiap hasil proses akan dibandingkan dengan kamus. Dalam penelitian ini disiapkan data kamus dan dokumen uji sebanyak 130 dokumen dalam bahasa Sunda. Pada proses tokenizer, dari 130 dokumen uji didapat 100 824 kata. Katakata tersebut belum unik, sehingga perlu diproses lebih lanjut untuk mendapatkan satu kata unik dari sejumlah kata yang memiliki bentuk yang sama. Setelah kata yang sama dihilangkan didapat kata unik sebesar 16 949 kata. Dari jumlah kata tersebut setelah di-stem hasilnya adalah 11 515 kata. Dari 16 949 kata tersebut setelah dipelajari ternyata banyak kata yang bukan berasal dari bahasa Sunda. Terdapat kata-kata dalam bahasa Arab, bahasa Jawa, bahasa Indonesia dan bahasa Inggris. Ada juga bahasa Indonesia yang di’sunda’kan, misalnya dimanfaatkeun (seharusnya dimangpaatkeun); panolong, ngarakit, usulanana, mertahankeun (bahasa Indonesia yang diberi imbuhan bahasa Sunda); juga nama-nama, baik nama orang, nama tempat, nama sungai dan lain-lain. Selain itu, banyak juga singkatan-singkatan serta penulisan-penulisan yang salah ketik. Tentu saja katakata di atas jika di-stem dengan algoritme stemming bahasa Sunda hasilnya tidak akan pernah sesuai dengan yang diharapkan. Untuk melihat apakah stemming bekerja sesuai dengan yang diharapkan, kata-kata tersebut di atas dihilangkan dan hasilnya didapat 10 416 kata.
URI: http://repository.ipb.ac.id/handle/123456789/56568
Appears in Collections:MT - Mathematics and Natural Science

Files in This Item:
File Description SizeFormat 
2011apu1.pdf
  Restricted Access
fulltext2.12 MBAdobe PDFView/Open
ABSTRACT.pdf
  Restricted Access
Abstract291.7 kBAdobe PDFView/Open
BAB 1. PENDAHULUAN.pdf
  Restricted Access
BAB I293.67 kBAdobe PDFView/Open
BAB 2. TINJAUAN PUSTAKA.pdf
  Restricted Access
BAB II460.32 kBAdobe PDFView/Open
BAB 3. METODOLOGI PENELITIAN.pdf
  Restricted Access
BAB III1.29 MBAdobe PDFView/Open
BAB 4. HASIL PENELITIAN DAN PEMBAHASAN.pdf
  Restricted Access
BAB IV735.11 kBAdobe PDFView/Open
BAB 5. KESIMPULAN DAN SARAN.pdf
  Restricted Access
BAB V283.49 kBAdobe PDFView/Open
COVER.pdf
  Restricted Access
COVER280.72 kBAdobe PDFView/Open
DAFTAR PUSTAKA.pdf
  Restricted Access
DAFTAR PUSTAKA281.91 kBAdobe PDFView/Open
LAMPIRAN.pdf
  Restricted Access
LAMPIRAN329.81 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.