Pengembangan Sistem Berbasis Pengetahuan untuk Ekstraksi Topik Dokumen
View/ Open
Date
2019Author
Syamsuri
Kusuma, Wisnu Ananta
Hartono, Wijaya Sony
Metadata
Show full item recordAbstract
Tropical Biopharmaca Research Center (Trop-BRC) Institut Pertanian
Bogor (IPB) adalah salah satu lembaga penelitian yang telah mempublikasikan
hasil karya ilmiah sejak tahun 1993 pada berbagai jurnal internasional yang juga
telah terindeks di dalam basis data abstrak dan kutipan literatur peer-review terbesar
seperti Scopus. Para peneliti Trop-BRC juga tergabung di dalam Research Gate
yaitu jaringan profesional untuk para ilmuan dan peneliti untuk berkolaborasi dalam
berbagai bidang penelitian. Trop-BRC akan melakukan evaluasi secara berkala
mengenai topik penelitian yang telah dilakukan dan juga melakukan perbandingan
dengan melihat trend keilmuan yang sedang berkembang. Teknik evaluasi dan
review secara umum bisa dilakukan dengan hanya melihat judul, abstract dan
keywords yang ada pada setiap publikasi ilmiah. Evaluasi secara spesifik dan rinci
pada paparan topik hasil penelitian juga dapat dilihat pada bab metode, hasil dan
kesimpulan. Pada praktiknya, evaluasi secara umum dan rinci akan sulit dilakukan
pada data publikasi dalam jumlah besar dan telah tersebar di berbagai jurnal online.
Hal yang dapat dilakukan yaitu dengan mengorganisasi semua file dokumen
publikasi ke dalam sistem manajemen dokumen berbasis pengetahuan yang mampu
melakukan ekstraksi topik dokumen secara cepat dan adaptif.
Text Mining adalah metode yang digunakan untuk menemukan pola
informasi pada data teks yang tidak terstruktur. Tahapan dari proses text mining
yang dilakukan dalam penelitian ini meliputi proses tokenisasi, filter term
alphanumeric, remove stop word, filter term yang hanya berbahasa inggris atau
indonesia, porter stemming, menghilangkan term umum dan output akhir berupa
term dalam bahasa inggris atau bahasa indonesia. Selanjutnya output proses text
mining dimasukkan ke dalam proses ekstraksi topik dokumen, proses ini dilakukan
dengan menggunakan algoritme Latent Dirichlet Allocation (LDA) dan K-Means.
Kedua algoritme tersebut digunakan untuk melakukan perbandingan hasil ekstraksi
topik dokumen, dengan tujuan untuk melihat kualitas hasil cluster dari sisi topik
term yang dihasilkan. Untuk memvalidasi kualitas hasil cluster kedua algoritme
tersebut dibutuhkan pakar untuk menentukan topik label pada setiap cluster dengan
melihat relevansi bidang keilmuan yang ada di Trop-BRC. Pengembangan sistem
berbasis pengetahuan atau Knowledge Management System (KMS) dalam
penelitian ini menggunakan pendekatan Knowledge Management Life Cycle
(KMSLC). Pendekatan ini terdiri atas enam tahapan yang terdiri dari evaluasi
sistem yang berjalan, pembentukan tim, mengumpulkan pengetahuan, desain KMS
blueprint, verfikasi dan validasi, dan implementasi.
Hasil dari penelitian ini adalah aplikasi KMS berbasis web dengan fitur
utama sebagai file repository, text mining preprocess, ekstraksi topik dokumen pada
setiap peneliti, bidang ilmu, dan keseluruhan dokumen secara adaptif serta mampu
memberikan rangkuman informasi topik penelitian kepada pemegang keputusan
dan peneliti di Trop-BRC. Pada proses verifikasi dan validasi dilakukan pengujian
logical testing dan User Accepted Testing (UAT). Tahapan logical testing
dilakukan dengan pengujian kode program secara detail, yang meliputi proses text
mining, input parameter LDA & K-Means, proses ekstraksi topik, dan proses
penyimpanan ekstraksi topik dokumen ke dalam database. Sementara itu dalam
tahapan UAT yang dilakukan adalah pengujian perilaku sistem pada tampilan
antarmuka, waktu eksekusi dan evaluasi hasil ekstraksi topik. Para pakar dan
peneliti dapat dengan mudah mengamati term topik yang dibahas secara umum
sehingga dapat mengidentifikasi topik apa saja sudah diteliti. Untuk menentukan
topik label dibutuhkan pakar yang dapat memahami dan memverifikasi arti setiap
term di setiap topik yang ada. Berdasarkan hasil uji coba menggunakan proses LDA,
menunjukkan hasil perplexity terbaik yaitu dengan menggunakan parameter
learning rate 0.5 dengan jumlah topik K pada nilai 3, 5, 8, 10, 15, 20, 25, 30, 40
dan 50. Nilai perplexity terbaik adalah nilai yang paling rendah, yaitu 935.13.
Jumlah dokumen yang diproses berjumlah 308 dokumen, dengan jumlah term unik
sebanyak 11.094. Menurut justifikasi dari pakar, nilai K=8, learning rate 0.5
menunjukkan topik yang paling relevan dengan topik penelitian yang ada di Trop-
BRC.