Pengembangan Sistem Berbasis Pengetahuan untuk Ekstraksi Topik Dokumen

Syamsuri

View/Open

Fulltext (19.58Mb)

Date

2019

Author

Syamsuri

Kusuma, Wisnu Ananta

Hartono, Wijaya Sony

Metadata

Show full item record

Abstract

Tropical Biopharmaca Research Center (Trop-BRC) Institut Pertanian Bogor (IPB) adalah salah satu lembaga penelitian yang telah mempublikasikan hasil karya ilmiah sejak tahun 1993 pada berbagai jurnal internasional yang juga telah terindeks di dalam basis data abstrak dan kutipan literatur peer-review terbesar seperti Scopus. Para peneliti Trop-BRC juga tergabung di dalam Research Gate yaitu jaringan profesional untuk para ilmuan dan peneliti untuk berkolaborasi dalam berbagai bidang penelitian. Trop-BRC akan melakukan evaluasi secara berkala mengenai topik penelitian yang telah dilakukan dan juga melakukan perbandingan dengan melihat trend keilmuan yang sedang berkembang. Teknik evaluasi dan review secara umum bisa dilakukan dengan hanya melihat judul, abstract dan keywords yang ada pada setiap publikasi ilmiah. Evaluasi secara spesifik dan rinci pada paparan topik hasil penelitian juga dapat dilihat pada bab metode, hasil dan kesimpulan. Pada praktiknya, evaluasi secara umum dan rinci akan sulit dilakukan pada data publikasi dalam jumlah besar dan telah tersebar di berbagai jurnal online. Hal yang dapat dilakukan yaitu dengan mengorganisasi semua file dokumen publikasi ke dalam sistem manajemen dokumen berbasis pengetahuan yang mampu melakukan ekstraksi topik dokumen secara cepat dan adaptif. Text Mining adalah metode yang digunakan untuk menemukan pola informasi pada data teks yang tidak terstruktur. Tahapan dari proses text mining yang dilakukan dalam penelitian ini meliputi proses tokenisasi, filter term alphanumeric, remove stop word, filter term yang hanya berbahasa inggris atau indonesia, porter stemming, menghilangkan term umum dan output akhir berupa term dalam bahasa inggris atau bahasa indonesia. Selanjutnya output proses text mining dimasukkan ke dalam proses ekstraksi topik dokumen, proses ini dilakukan dengan menggunakan algoritme Latent Dirichlet Allocation (LDA) dan K-Means. Kedua algoritme tersebut digunakan untuk melakukan perbandingan hasil ekstraksi topik dokumen, dengan tujuan untuk melihat kualitas hasil cluster dari sisi topik term yang dihasilkan. Untuk memvalidasi kualitas hasil cluster kedua algoritme tersebut dibutuhkan pakar untuk menentukan topik label pada setiap cluster dengan melihat relevansi bidang keilmuan yang ada di Trop-BRC. Pengembangan sistem berbasis pengetahuan atau Knowledge Management System (KMS) dalam penelitian ini menggunakan pendekatan Knowledge Management Life Cycle (KMSLC). Pendekatan ini terdiri atas enam tahapan yang terdiri dari evaluasi sistem yang berjalan, pembentukan tim, mengumpulkan pengetahuan, desain KMS blueprint, verfikasi dan validasi, dan implementasi. Hasil dari penelitian ini adalah aplikasi KMS berbasis web dengan fitur utama sebagai file repository, text mining preprocess, ekstraksi topik dokumen pada setiap peneliti, bidang ilmu, dan keseluruhan dokumen secara adaptif serta mampu memberikan rangkuman informasi topik penelitian kepada pemegang keputusan dan peneliti di Trop-BRC. Pada proses verifikasi dan validasi dilakukan pengujian logical testing dan User Accepted Testing (UAT). Tahapan logical testing dilakukan dengan pengujian kode program secara detail, yang meliputi proses text mining, input parameter LDA & K-Means, proses ekstraksi topik, dan proses penyimpanan ekstraksi topik dokumen ke dalam database. Sementara itu dalam tahapan UAT yang dilakukan adalah pengujian perilaku sistem pada tampilan antarmuka, waktu eksekusi dan evaluasi hasil ekstraksi topik. Para pakar dan peneliti dapat dengan mudah mengamati term topik yang dibahas secara umum sehingga dapat mengidentifikasi topik apa saja sudah diteliti. Untuk menentukan topik label dibutuhkan pakar yang dapat memahami dan memverifikasi arti setiap term di setiap topik yang ada. Berdasarkan hasil uji coba menggunakan proses LDA, menunjukkan hasil perplexity terbaik yaitu dengan menggunakan parameter learning rate 0.5 dengan jumlah topik K pada nilai 3, 5, 8, 10, 15, 20, 25, 30, 40 dan 50. Nilai perplexity terbaik adalah nilai yang paling rendah, yaitu 935.13. Jumlah dokumen yang diproses berjumlah 308 dokumen, dengan jumlah term unik sebanyak 11.094. Menurut justifikasi dari pakar, nilai K=8, learning rate 0.5 menunjukkan topik yang paling relevan dengan topik penelitian yang ada di Trop- BRC.

URI

http://repository.ipb.ac.id/handle/123456789/98031

Collections

MT - Mathematics and Natural Science [4149]