Fine-Tuning General-Purpose Text Embedding (GTE) Model untuk Pencarian Dokumen Akademik berbasis Semantik di Repository IPB University
Date
2025Author
Mashun, Hasrul Malik Putra
Adisantoso, Julio
Mushthofa
Metadata
Show full item recordAbstract
Penelitian ini bertujuan untuk meningkatkan relevansi sistem pencarian
dokumen akademik di Repository IPB University melalui fine-tuning model
embedding GTE-Base-EN-v1.5. Dataset terdiri dari 122.977 dokumen, dengan
115.144 dokumen yang layak digunakan dan dikonversi ke format triplet
menggunakan embedding OpenAI sebagai ground truth. Model dilatih menggunakan
Multiple Negatives Ranking Loss pada 828.796 data latih dan 207.500 data validasi.
Evaluasi terhadap 740 query dari 37 departemen menunjukkan peningkatan
signifikan. Pada Top-5, MRR meningkat dari 0.1049 menjadi 0.3938, Precision dari
0.0451 menjadi 0.1849, dan Accuracy dari 0.1554 menjadi 0.5743. Loss juga
menurun dari 0.0402 menjadi 0.0047, menandakan proses pelatihan efektif tanpa
overfitting. Model hasil fine-tuning mencapai accuracy 0.6730 pada Top-10, jauh
lebih baik dibandingkan sebelum pelatihan (0.2257).
