Clustering Dokumen Tumbuhan Obat Menggunakan Concept Indexing

Prabowo, Rizky

View/Open

Fulltext (1.542Mb)

Date

2013

Author

Prabowo, Rizky

Herdiyeni, Yeni

Zuhud, Ervizal A.M

Metadata

Show full item record

Abstract

Penelitian ini mengusulkan algoritme concept indexing untuk identifikasi famili tumbuhan obat berdasarkan teks. Proses identifikasi famili dilakukan dengan dokumen tumbuhan obat. Pada dokumen tumbuhan obat dapat ditemukan berbagai karakteristik dari tumbuhan obat. Karakteristik-karakteristik pada dokumen tumbuhan obat dapat dimanfaatkan untuk menentukan famili dari tumbuhan obat. Metode penelitian ini terdiri atas enam tahapan yaitu pengumpulan data, praproses, ekstraksi ciri, clustering dokumen, identifikasi famili dan evaluasi. Pengumpulan data merupakan tahapan mengumpulkan dan melakukan digitasi dokumen. Data yang digunakan pada penelitian ini merupakan dokumen dalam format xml. Tahapan praproses melibatkan lowercasing, tokenisasi dan penghilangan kata hubung. Praproses bertujuan untuk melakukan pemotongan kata dan juga menghilangkan karakter-karakter tertentu seperti tanda baca dan juga kata hubung . Ekstraksi ciri bertujuan untuk menemukan kata-kata penting yang merepresentasikan karakteristik dari famili tumbuhan obat. Dokumen diubah kedalam bentuk vektor berdasarkan frekuesi kemunculan kata di dalam sebuah dokumen. Concept indexing melakukan pengelompokkan terhadap dokumen-dokumen yang memiliki kemiripan dan menggunakan centroid dari cluster sebagai sumbu pada dimensi yang lebih kecil. Clustering dokumen dilakukan dengan algoritma fuzzy C-means. Fuzzy C-means mengizinkan sebuah dokumen masuk kedalam beberapa kelompok bedasarkan derajat keanggotaan ke masing-masing kelompok. Hasil percobaan menunjukkan bahwa akurasi sistem mencapai 80.6%. Algoritme yang diusulkan pada penelitian ini dapat digunakan untuk membantu ahli botani dalam menentukan famili tumbuhan berdasarkan dokumen teks.

URI

http://repository.ipb.ac.id/handle/123456789/118392

Collections

MT - Mathematics and Natural Science [4162]