Ukuran Kemiripan Gene Ontology Annotation Berbasis Language Model Dirichlet Similarity Menggunakan Solr
Abstract
Informasi mengenai keanekaragaman hayati khususnya gen tumbuhan banyak
ditemukan dari buku-buku terkait ataupun dari internet. Tetapi informasi ini
sangatlah besar dan memiliki format yang berbeda-beda. Biodiversity Informatics
dapat menutupi kekurangan ini dengan menggunakan struktur ontologi sebagai
representasi pengetahuannya. Gene Ontology (GO) merupakan ontologi yang
menyediakan informasi mengenai gen. Dalam penelitian ini digunakan sebuah
mesin pencari Apache Solr untuk mencari data dengan skala besar seperti GO.
Urutan ranking dokumen yang dikembalikan ditentukan dengan melihat kemiripan
language model dengan dokumen yang telah dilakukan smoothing dengan metode
Dirichlet Smoothing. Pengaruh salah satu parameter Dirichlet, panjang dokumen,
terhadap estimasi peluang tidak terlalu besar. Tingkat relevansi sistem berdasarkan
nilai MAP dan R-precision sudah cukup relevan. Hasil penelitian menunjukkan
bahwa semakin besar panjang dokumennya maka akan semakin kecil pengaruh
Dirichlet prior terhadap estimasi peluang.
Collections
- UT - Computer Science [2322]