Pengelompokan Dokumen Publikasi Ilmiah Berdasarkan Bidang Kepakaran Menggunakan Metode Agglomerative Hierarchical Clustering
Date
2024Author
Rasendriya, Muhamad Hadziq Firza
Wijaya, Sony Hartono
Metadata
Show full item recordAbstract
Dengan setiap pakar memiliki keahlian yang berbeda, dan keahlian ini
dapat diidentifikasi melalui dokumen-dokumen yang paling menunjukkan
kemampuannya. Sebuah model klasterisasi diperlukan untuk mengklasifikasikan
karya ilmiah secara otomatis ke dalam domain keahlian yang berbeda. Dengan
adanya pengelompokan ini menjadi salah satu cara untuk mengklaim atau
memvalidasi dari bidang kepakaran seseorang. Penelitian ini menggunakan
algoritma Latent Dirichlet Allocation (LDA) untuk mengurangi dimensi data dan
menggunakan metode Agglomerative Hierarchical Clustering yang ditingkatkan
dengan dan T-distributed Stochastic Neighbor Embedding (T-SNE) sebagai
klasterisasi dokumen publikasi ilmiahnya. Temuan penelitian ini secara efektif
mengelompokkan dokumen, yang dibuktikan dengan nilai koefisien silhouette
sebesar 0.544 dengan nilai yang lebih tinggi menunjukkan klaster yang lebih baik.
Model yang dibangun dievaluasi dengan membandingkan cluster yang dihasilkan
dengan klaim yang dinyatakan. Hasilnya, 25% hasil pencocokan tidak sesuai dan
75% sesuai. Each expert has different expertise, and this expertise can be identified
through the documents that best demonstrate his or her skills. A clustering model
is needed to automatically classify scientific papers into different domains of
expertise. This clustering is one way to claim or validate one's area of expertise.
This research uses the Latent Dirichlet Allocation (LDA) algorithm to reduce the
dimensionality of the data and uses the Agglomerative Hierarchical Clustering
method enhanced with and T-distributed Stochastic Neighbor Embedding (T-SNE)
as its clustering of scientific publication documents. The findings of this study
effectively cluster the documents, as evidenced by the silhouette coefficient value
of 0.544 with higher values indicating better clusters. The built model was
evaluated by comparing the resulting clusters with the stated claims. As a result,
25% of the matching results did not match and 75% matched.
Collections
- UT - Computer Science [2482]
