Klasifikasi Abstrak Artikel Ilmiah pada Cora Dataset Menggunakan Long Short Term Memory
Abstract
Penelitian ini bertujuan untuk mengklasifikasikan topik artikel ilmiah berdasarkan abstraknya dengan menggunakan metode Long Short-Term Memory (LSTM) yang dipadukan dengan FastText sebagai word embedding. Klasifikasi teks pada artikel ilmiah menjadi penting karena memudahkan peneliti dalam menemukan referensi yang relevan. Meskipun banyak penelitian terkait klasifikasi teks, masih terdapat tantangan dalam mengembangkan model klasifikasi yang efisien dan akurat, terutama pada dataset ilmiah seperti CORA. Penelitian ini melalui beberapa tahapan, yaitu pengumpulan data, praproses data, word embedding, pembagian data, pembangunan model, serta evaluasi dan perbandingan model. Sebanyak dua belas model diuji dengan lima kali pelatihan pada setiap model, menghasilkan 60 hasil pengujian dengan menggunakan lima fold cross- validation. Hasil penelitian menunjukkan bahwa model kedelapan memiliki performa terbaik dengan rata-rata akurasi 0,9355 dan rata-rata loss 0,3108, menggunakan ukuran vektor 16, batch size 64, dan epoch 50. Namun, jika mempertimbangkan kecepatan pengujian tanpa memperhatikan akurasi tertinggi, model pertama menjadi pilihan terbaik dengan waktu pengujian 47,2 menit. This study aims to classify the topics of scientific articles based on their abstracts using the Long Short-Term Memory (LSTM) method combined with FastText as a word embedding technique. Text classification in scientific articles is crucial as it aids researchers in finding relevant references efficiently. Despite numerous studies on text classification, developing efficient and accurate models for scientific datasets like CORA remains challenging.. The research involves several stages, including data collection, data preprocessing, word embedding, data splitting, model construction, and model evaluation and comparison. Twelve models were tested with five training runs for each model, resulting in 60 evaluation outcomes using five-fold cross-validation. The results indicate that Model 8 performed the best, with an average accuracy of 0.9355 and an average loss of 0.3108, using a vector size of 16, batch size of 64, and 50 epochs. However, when considering testing speed without prioritizing the highest accuracy, Model 1 is the optimal choice, with a testing time of 47.2 minutes.