Dictionary-Based Stemming Model for Documents in Sundanese Language

Purwoko, Andhy

Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/56568

Title:	Dictionary-Based Stemming Model for Documents in Sundanese Language Model Stemming Berbasis Kamus untuk Dokumen Berbahasa Sunda
Authors:	Buono, Agus Ridha, Ahmad Purwoko, Andhy
Keywords:	stemming prefix infix sufix confix ambifix repeated words
Issue Date:	2011
Publisher:	IPB ( Bogor Agricultural University )
Abstract:	The use of local languanges tends to vanish, and one of the reasons is the reluctance of local people to practice their own language. Research on the local language, particulary Sundanesse, is also not considered to be interesting topic. More documents in Sundanesse have been digitized, but research on the documents is still limited. Information Retrieval (IR) has been used to explore information from tested documents. In IR, the documents will be parsed to obtain their tokens. The tokens will be saved in index files. In order to make the IR optimal, the index files should be created as small as possible. Therefore, discarding unimportant words should be done. Prefixes, infixes, sufixes, confixes, ambifixes, and repeated patterns in the tokens will be eliminated. This elimination proccess is called stemming. The stemming algorithm is based on dictionary, i.e., the stemmed words will be compared with dictionary. This algorithm has produced the expected words with 91.38% accuracy. In the future researches, this algorithm can be deployed on seacrh engine, Natural Language Processing (NLP) or machine translation for Sundanese. Penggunaan bahasa daerah cenderung menuju ke arah kepunahan. Hal ini disebabkan karena makin enggannya orang daerah menggunakan Bahasa daerahnya sendiri. Penelitian terhadap bahasa daerah khususnya Bahasa Sunda juga bukan merupakan bahasan yang menarik. Telah ada dokumen berbahasa Sunda yang sudah berbentuk file digital, namun belum banyak penelitian terhadap dokumen berbahasa Sunda tersebut. Salah satu metode untuk mengeksplorasi informasi dari dokumen-dokumen Bahasa Sunda adalah sistem temu kembali informasi. Dalam Sistem Temu Kembali Informasi dokumen-dokumen tersebut akan di-parse untuk mendapatkan token. Token-token tersebut akan disimpan dalam sebuah file indeks. Agar sistem temu kembali optimal maka file indeks dibuat sekecil mungkin. Agar file indeks kecil, proses parsing selanjutnya adalah penghilangan kata yang tidak penting. Selanjutnya token-token tersebut akan dihilangkan awalan, sisipan, akhiran, imbuhan terbelah dan imbuhan gabungannya. Proses tersebut diberi nama stemming. Algoritme stemming yang dirancang adalah algoritme berdasarkan kamus. Algoritme akan menghilangkan awalan, sisipan, akhiran imbuhan terbelah dan imbuhan gabungan serta kata ulang, dan pada setiap hasil proses akan dibandingkan dengan kamus. Dalam penelitian ini disiapkan data kamus dan dokumen uji sebanyak 130 dokumen dalam bahasa Sunda. Pada proses tokenizer, dari 130 dokumen uji didapat 100 824 kata. Katakata tersebut belum unik, sehingga perlu diproses lebih lanjut untuk mendapatkan satu kata unik dari sejumlah kata yang memiliki bentuk yang sama. Setelah kata yang sama dihilangkan didapat kata unik sebesar 16 949 kata. Dari jumlah kata tersebut setelah di-stem hasilnya adalah 11 515 kata. Dari 16 949 kata tersebut setelah dipelajari ternyata banyak kata yang bukan berasal dari bahasa Sunda. Terdapat kata-kata dalam bahasa Arab, bahasa Jawa, bahasa Indonesia dan bahasa Inggris. Ada juga bahasa Indonesia yang di’sunda’kan, misalnya dimanfaatkeun (seharusnya dimangpaatkeun); panolong, ngarakit, usulanana, mertahankeun (bahasa Indonesia yang diberi imbuhan bahasa Sunda); juga nama-nama, baik nama orang, nama tempat, nama sungai dan lain-lain. Selain itu, banyak juga singkatan-singkatan serta penulisan-penulisan yang salah ketik. Tentu saja katakata di atas jika di-stem dengan algoritme stemming bahasa Sunda hasilnya tidak akan pernah sesuai dengan yang diharapkan. Untuk melihat apakah stemming bekerja sesuai dengan yang diharapkan, kata-kata tersebut di atas dihilangkan dan hasilnya didapat 10 416 kata.
URI:	http://repository.ipb.ac.id/handle/123456789/56568
Appears in Collections:	MT - Mathematics and Natural Science

Files in This Item:

File	Description	Size	Format
2011apu1.pdf Restricted Access	fulltext	2.12 MB	Adobe PDF	View/Open
ABSTRACT.pdf Restricted Access	Abstract	291.7 kB	Adobe PDF	View/Open
BAB 1. PENDAHULUAN.pdf Restricted Access	BAB I	293.67 kB	Adobe PDF	View/Open
BAB 2. TINJAUAN PUSTAKA.pdf Restricted Access	BAB II	460.32 kB	Adobe PDF	View/Open
BAB 3. METODOLOGI PENELITIAN.pdf Restricted Access	BAB III	1.29 MB	Adobe PDF	View/Open
BAB 4. HASIL PENELITIAN DAN PEMBAHASAN.pdf Restricted Access	BAB IV	735.11 kB	Adobe PDF	View/Open
BAB 5. KESIMPULAN DAN SARAN.pdf Restricted Access	BAB V	283.49 kB	Adobe PDF	View/Open
COVER.pdf Restricted Access	COVER	280.72 kB	Adobe PDF	View/Open
DAFTAR PUSTAKA.pdf Restricted Access	DAFTAR PUSTAKA	281.91 kB	Adobe PDF	View/Open
LAMPIRAN.pdf Restricted Access	LAMPIRAN	329.81 kB	Adobe PDF	View/Open

Show full item record Recommend this item

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets