Plant-Disease Relation Model using BERT-BiLSTM-CRF and Transfer Learning Approach.
Date
2024Author
Riyanto, Slamet
Sitanggang, Imas Sukaesih
Djatna, Taufik
Atiqah, Tika Dewi
Metadata
Show full item recordAbstract
A Plant-Disease Relation (PDR) is a relation extraction sub-task that aims to reveal the relationship between plants and disease entities in a sentence. Research on the PDR was first proposed by Kim et al. in 2019. They developed PDR as a gold-standard corpus by manually labeling the plant and disease entities with help of the experts. The corpus has four classes: treatment of disease, cause of disease, negative, and associate. Subsequently, they proposed a short dependency path-convolutional neural network (SDP-CNN) method to analyze the relationship between plants and disease entities. The SDP algorithm identifies the shortest path to find plant and disease entities while CNN analyzes the relationship between the two entities in the classification. The experimental results show that the model performance achieved an F1 score of 0.764 for imbalanced class data. The SDP-CNN combination effectively extracts local features from dependency paths and efficiently captures syntactic and semantic information. By concentrating on the most relevant parts of the sentences, SDP-CNN can improve the accuracy of relation extraction tasks, particularly in simpler sentences.
On the other hand, the SDP-CNN method has several limitations: 1) Does not take class balance into account when building the PDR model; 2) the SDP-CNN method is only optimal for short sentences, but is not effective for complex English; and 3) rely on Experts when building ground truth datasets. Therefore, this research aims to 1) to select the best techniques in oversampling, undersampling, and SMOTE to deal with imbalance classes; 2) to improve the F1 score of plant-disease relation model proposed by Kim et al. (2019) by combine BERT-BiLSTM-CRF algorithm; and 3) to propose a multi-source transfer learning method for automatic labeling for replaced rely on the expert. Meanwhile, the novelty of this research is as follows: 1) BERT-BiLSTM-CRF method to predict plant-disease relation, and 2) multi-source transfer learning method for automatic labeling.
We performed preprocessing and applied stop_word to realize the first goal. Then, the text was converted to numeric text using a Count Vectorizer with the addition of n-grams. In both the training and testing stages, we utilized an 80:20 ratio and 5-fold cross validation. We used machine learning classifiers (multinomial naïve bayes, k-nearest neighbour, support vector machine, and random forest) and Deep Learning (LSTM). Additionally, we employed undersampling, oversampling, and the Synthetic Minority Oversampling Technique (SMOTE) to address with unbalanced classes. Overall, experiments were conducted on all classifiers using the eight schemes. The experimental results show that, the LSTM classifier with the undersampling technique is superior to all the machine learning classifiers.
To achieve the second goal, we normalized the PDR corpus. Each sentence was arranged in a single line and ended within a period. Next, the tokenisation process used the BERT Tokenizer. In the training stage, the training and testing data were divided in an 80:20 ratio. Hyperparameter tuning was performed using GridSearch to obtain the optimal model configuration. It took approximately 28 hours to obtain optimal parameters. The results of the GridSearch recommendation yielded the following parameters: epoch=40, dropout=0.3, batch_size=64, and num_units=128. To obtain the optimal model, we conducted the experiments ten times with the same parameters. In addition, we performed experiments 11–14 using four schemes by modifying the epoch and batch_size parameter values. The experimental results show that the 7th experiment obtained an F1 score of 0.78. We found that reducing the number of epochs in the 12th experiment resulted in an F1 score of 0.79. Furthermore, reducing the batch_size in the 14th experiment achieved an F1 score of 0.80. Apart from that, we also employed oversampling techniques to balance classes and achieving improved F1 score of 0.91. This demonstrated that the proposed BERT-BiLSTM-CRF model performs better than the previous research.
To achieve the third objective, we first collected datasets related to biomedicine and botany. These datasets were used as the candidate source domain for the training. During the skimming stage, all the datasets were studied to determine their relevance to the target domain (PDR corpus). The Jensen-Shenen Divergence (JSD) metric was used to ensure that the source data were similar to those of the target domain.. After obtaining the source data, we performed label mapping on the botanical dataset which refers to the target labels. This step is necessary since botanical datasets contain species, genus, family, subfamily, order, class and phylum labels. Subsequently, we constructed a rule-based algorithm to clean the dataset containing only “O” labels. The training, testing, and evaluating data followed a ratio of 80:10:10. GridSearch was employed to obtain the optimal parameters. During the training stage, we used fine-tuning with the BioBERT model. Four schemes were implemented to develop the models from the source and target data. The experimental results showed that the proposed transfer learning has high performance in providing labels accurately, with an F1 score of 0.92. This performance was influenced by the addition of rule-based algorithms at the preprocessing stage before the data were used for training. This result indicated that the JSD metric plays an important role in selecting quality source domains, thereby influencing model performance.
Based on the experimental results, it can be concluded that 1) the LSTM classifier is superior to other classifiers for classification tasks. Undersampling techniques were used to overcome imbalanced classes in the data used in this research. 2) The proposed BERT-BiLSTM-CRF method was superior to those used in previous studies. This performance is influenced by the BiLSTM layer, which operates in both ways and can store information from long documents. 3) The proposed transfer learning method worked well in providing labels automatically. it was influenced by the quality of the data source used as training data. Nevertheless, this research still has limitations and needs to be developed further. Further studies on co-reference resolution are needed to enhance model performance. Plant-Disease Relations (PDR) merupakan subtugas ekstraksi relasi yang bertujuan menganalisis hubungan antara entitas penyakit manusia-tanaman dalam sebuah kalimat. Penelitian mengenai PDR pertama kali dikemukakan oleh Kim et al. pada tahun 2019. Mereka mengembangkan PDR sebagai korpus standar emas dengan memberi label manual pada entitas penyakit manusia-tanaman dengan bantuan para ahli. Adapun korpus tersebut memiliki empat kelas: pengobatan penyakit, penyebab penyakit, negatif, dan asosiasi. Selanjutnya, mereka mengusulkan metode short depedency path-convolutional neural network (SDP-CNN) untuk menganalisis hubungan entitas penyakit manusia-tanaman. Algoritma SDP mengidentifikasi jalur terpendek untuk menemukan entitas tanaman dan penyakit manusia, sementara CNN menganalisis hubungan antara dua entitas dalam klasifikasi. Hasil eksperimen menunjukkan kinerja model mencapai skor F1 sebesar 0,764 pada kelas tidak seimbang. Kombinasi SDP-CNN secara efektif mengekstrak fitur lokal dari jalur ketergantungan dan secara efisien menangkap informasi sintaksis dan semantik. Dengan berkonsentrasi pada bagian kalimat yang paling relevan, SDP-CNN dapat meningkatkan akurasi tugas ekstraksi relasi, khususnya dalam kalimat sederhana.
Di sisi lain, metode SDP-CNN memiliki beberapa keterbatasan: 1) tidak memperhitungkan keseimbangan kelas saat membangun model PDR; 2) metode SDP-CNN hanya optimal untuk kalimat pendek, namun tidak efektif untuk bahasa Inggris kompleks; dan 3) mengandalkan pakar saat menyusun data berlabel. Oleh karena itu, penelitian ini bertujuan untuk 1) memilih teknik terbaik melalui oversampling, undersampling, dan SMOTE untuk menangani kelas-kelas yang tidak seimbang; 2) meningkatkan skor F1 model hubungan penyakit manusia-tanaman yang diusulkan oleh Kim et al. (2019) dengan menggabungkan algoritma BERT-BiLSTM-CRF; dan 3) mengusulkan metode pembelajaran transfer multi-sumber untuk pelabelan entitas secara otomatis. Sedangkan kebaruan penelitian ini adalah sebagai berikut: 1) metode BERT-BiLSTM-CRF untuk memprediksi hubungan penyakit manusia-tanaman, dan 2) metode pembelajaran transfer multi-sumber untuk pelabelan otomatis.
Penelitian ini melakukan pra-pemrosesan dan menerapkan stop_word untuk mewujudkan tujuan pertama. Kemudian teks tersebut diubah menjadi teks numerik menggunakan Count Vectorizer dengan penambahan n-gram. Penelitian ini menggunakan rasio 80:20 dan 5-fold cross validation untuk tahap pelatihan. Penelitian ini menggunakan pengklasifikasi pembelajaran mesin (Multinomial Naïve Bayes, K-Nearest Neighbour, Support Vector Machine, dan Random Forest) dan Deep Learning (Long Short-Term Memory). Selain itu, teknik undersampling, oversampling, dan Synthetic Minority Oversampling Technique (SMOTE) digunakan untuk mengatasi kelas yang tidak seimbang. Hasil eksperimen menunjukkan bahwa classifier LSTM dengan teknik undersampling lebih unggul dibandingkan semua classifier machine learning.
Untuk mencapai tujuan kedua, penelitian ini melakukan normalisasi korpus PDR. Setiap kalimat disusun dalam satu baris dan diakhiri satu titik. Selanjutnya, proses tokenisasi menggunakan BERT Tokenizer. Pada tahap pelatihan, data pelatihan dan pengujian dibagi dengan rasio 80:20. Hyperparameter tuning dilakukan menggunakan GridSearch untuk mendapatkan konfigurasi model yang optimal. Hasil kalkulasi GridSearch memperoleh parameter optimal sebagai berikut: epoch=40, dropout=0.3, batch_size=64, dan num_units=128. Untuk mendapatkan model yang optimal, percobaan dilakukan sebanyak sepuluh kali dengan parameter yang sama. Selain itu, eksperimen 11-14 dilakukan dengan memodifikasi nilai parameter epoch dan batch_size. Hasil percobaan ke 7 memperoleh skor F1 sebesar 0,78. Sedangkan pengurangan jumlah epoch pada percobaan ke-12 memperoleh skor F1 sebesar 0,79. Sementara itu, pengurangan jumlah batch_size pada percobaan ke-14 menghasilkan skor F1 sebesar 0,80. Selain itu, teknik oversampling digunakan untuk menyeimbangkan kelas dan kinerja lebih optimal dengan skor F1 0.91. Hal ini menunjukkan bahwa model BERT-BiLSTM-CRF memiliki kinerja lebih baik dibandingkan penelitian sebelumnya.
Untuk mencapai tujuan ketiga, pertama penelitian ini mengumpulkan data terkait biomedis dan botani. Kumpulan data ini digunakan sebagai kandidat source domain untuk pelatihan. Pada tahap skimming, seluruh dataset dipelajari untuk mengetahui relevansinya dengan target domain (korpus PDR). Untuk memastikan bahwa data sumber serupa dengan domain target, penelitian ini menggunakan metrik Jensen-Shenen Divergence (JSD). Setelah memperoleh data sumber, dilakukan label mapping pada dataset botani sesuai data target. Hal ini diperlukan karena data botani memuat label spesies, genus, family, subfamily, ordo, kelas, dan filum. Selanjutnya, algoritme berbasis aturan dibuat untuk membersihkan kumpulan data yang hanya berisi label “O”. Data pelatihan, pengujian, dan evaluasi mengikuti rasio 80:10:10. Tahap pelatihan menggunakan fine-tuning dengan model BioBERT. Empat skema digunakan untuk mengembangkan model dari sumber dan data target. Hasil eksperimen menunjukkan bahwa pembelajaran transfer yang diusulkan memiliki kinerja tinggi dalam memberikan label secara akurat, dengan skor F1 sebesar 0,92. Kinerja ini dipengaruhi oleh penambahan algoritma rule-based pada tahap pra-premrosesan. Hasil ini menunjukkan bahwa metrik JSD berperan penting dalam memilih domain sumber yang berkualitas.
Berdasarkan hasil percobaan dapat disimpulkan bahwa 1) classifier LSTM lebih unggul dibandingkan classifier lainnya untuk tugas klasifikasi. Teknik undersampling digunakan untuk mengatasi ketidakseimbangan kelas pada data yang digunakan dalam penelitian ini. 2) Metode BERT-BiLSTM-CRF yang diusulkan lebih unggul dibandingkan yang digunakan pada penelitian sebelumnya. Kinerja ini dipengaruhi oleh lapisan BiLSTM yang beroperasi dua arah dan dapat menyimpan informasi dari dokumen panjang. 3) Metode pembelajaran transfer yang diusulkan bekerja dengan baik dalam memberikan label secara otomatis. hal ini dipengaruhi oleh kualitas sumber data yang digunakan sebagai data latih. Meskipun demikian, penelitian ini masih memiliki keterbatasan dan perlu dikembangkan lebih lanjut. Studi lebih lanjut tentang co-reference resolution diperlukan untuk meningkatkan kinerja model.