Clustering Dokumen Tumbuhan Obat Menggunakan Concept Indexing
View/ Open
Date
2013Author
Prabowo, Rizky
Herdiyeni, Yeni
Zuhud, Ervizal A.M
Metadata
Show full item recordAbstract
Penelitian ini mengusulkan algoritme concept indexing untuk identifikasi famili tumbuhan obat berdasarkan teks. Proses identifikasi famili dilakukan dengan dokumen tumbuhan obat. Pada dokumen tumbuhan obat dapat ditemukan berbagai karakteristik dari tumbuhan obat. Karakteristik-karakteristik pada dokumen tumbuhan obat dapat dimanfaatkan untuk menentukan famili dari tumbuhan obat. Metode penelitian ini terdiri atas enam tahapan yaitu pengumpulan data, praproses, ekstraksi ciri, clustering dokumen, identifikasi famili dan evaluasi. Pengumpulan data merupakan tahapan mengumpulkan dan melakukan digitasi dokumen. Data yang digunakan pada penelitian ini merupakan dokumen dalam format xml. Tahapan praproses melibatkan lowercasing, tokenisasi dan penghilangan kata hubung. Praproses bertujuan untuk melakukan pemotongan kata dan juga menghilangkan karakter-karakter tertentu seperti tanda baca dan juga kata hubung . Ekstraksi ciri bertujuan untuk menemukan kata-kata penting yang merepresentasikan karakteristik dari famili tumbuhan obat. Dokumen diubah kedalam bentuk vektor berdasarkan frekuesi kemunculan kata di dalam sebuah dokumen. Concept indexing melakukan pengelompokkan terhadap dokumen-dokumen yang memiliki kemiripan dan menggunakan centroid dari cluster sebagai sumbu pada dimensi yang lebih kecil. Clustering dokumen dilakukan dengan algoritma fuzzy C-means. Fuzzy C-means mengizinkan sebuah dokumen masuk kedalam beberapa kelompok bedasarkan derajat keanggotaan ke masing-masing kelompok. Hasil percobaan menunjukkan bahwa akurasi sistem mencapai 80.6%. Algoritme yang diusulkan pada penelitian ini dapat digunakan untuk membantu ahli botani dalam menentukan famili tumbuhan berdasarkan dokumen teks.