Kajian Pengaruh Metode Penarikan Contoh dan Algoritma Klasifikasi Pembelajaran Mesin terhadap Artikel Berita
Date
2023-06-20Author
Clarissa, Annebel Diestya
Syafitri, Utami Dyah
Wijayanto, Hari
Metadata
Show full item recordAbstract
Peringkasan teks adalah teknik untuk memperpendek dokumen teks yang
panjang dari berbagai sumber teks seperti blog, makalah penelitian, artikel berita,
dan email. Peringkasan teks dapat dilakukan dengan dua pendekatan yaitu
pendekatan ekstraktif dan abstraktif. Pendekatan ekstraktif menggunakan
pendekatan statistik (selection based) dengan memilih dan menyalin kalimat
penting untuk membuat ringkasan, sedangkan metode abstraktif menggunakan
pendekatan pengetahuan (knowledge based) dengan mengambil ide utama dari
dokumen asal dan kemudian membuat ringkasan dengan kalimat baru.
Pendekatan ekstraktif menganggap peringkasan teks sebagai masalah
klasifikasi dimana tiap kalimat diberi bobot dan diklasifikasikan masuk atau tidak
ke dalam ringkasan. Tantangan dalam peringkasan teks ekstraktif saat ini yaitu
pemilihan serta kombinasi fitur dan penentuan teknik peringkasan untuk
mendapatkan ringkasan yang lebih baik. Fitur adalah karakteristik atau indikator
dari kalimat yang diekstrak untuk menghasilkan ringkasan. Teknik atau
pendekatan yang banyak digunakan dan dapat dipadukan adalah pendekatan
statistik dan pembelajaran mesin.
Penggunaan algoritma klasifikasi pembelajaran mesin terutama
menggunakan data yang besar tentunya memerlukan waktu dan sumber daya yang
besar. Salah satu cara yang dapat dilakukan untuk efisiensi proses serta
mempermudah proses selanjutnya adalah dengan melakukan reduksi data.
Reduksi data dapat dilakukan dengan reduksi dimensi, pemilihan fitur, kompresi
data, dan sebagainya. Penarikan contoh yang merupakan suatu teknik untuk
memilih sebagian data representatif dari keseluruhan set data merupakan salah
satu metode yang data digunakan untuk reduksi data yang diharapkan dapat
memberikan hasil yang memuaskan dengan set data yang lebih kecil.
Terkait latar belakang yang telah dipaparkan, penelitian ini berfokus untuk
mengkaji pengaruh proporsi data contoh, metode penarikan contoh, serta
algoritma klasifikasi pembelajaran mesin dalam peringkasan artikel berita
berbahasa Indonesia. Data yang digunakan adalah set data IndoSum yang berisi
kumpulan artikel berita berbahasa Indonesia dengan metode penarikan contoh
yang dibandingkan yaitu penarikan contoh acak bertingkat secara sederhana dan
sistematik pada tujuh proporsi data contoh untuk dilihat pengaruhnya terhadap
model peringkasan. Algoritma klasifikasi pembelajaran mesin Extremely
Randomized Tree (Extra Tree) dan eXtreme Gradient Boosting (XGBoost)
digunakan dan diperbandingkan kinerjanya dalam peringkasan teks dengan
ukuran kebaikan model yang digunakan adalah nilai F1-Score. Selanjutnya, dari
model yang dihasilkan juga dikaji fitur yang penting dengan menggunakan
metode Permutation Feature Importance (PFI) dan SHapley Additive
ExPlanations (SHAP) untuk mengetahui karakteristik kalimat yang mencirikan
kalimat tersebut sebagai kalimat penting yang masuk ke dalam ringkasan.
Uji sidik ragam berdasarkan rancangan faktorial tiga faktor dalam
rancangan acak kelompok lengkap digunakan untuk menganalisis nilai kebaikan
model F1-Score. Hasil penelitian menyimpulkan bahwa interaksi tiga faktor yang
tidak signifikan mengindikasikan bahwa terdapat perbedaan pengaruh antara
ketiga faktor terhadap F1-Score, namun pengaruh tersebut tidak bergantung dari
interaksi taraf-taraf ketiga faktor. Pengaruh kelompok yaitu sumber berita,
proporsi data contoh dan algoritma klasifikasi sebagai faktor utama, serta interaksi
dua faktor signifikan pada alpha = 5%. Hasil uji lanjut tukey pada interaksi dua
faktor menunjukkan bahwa algoritma Extra Tree memiliki kinerja lebih baik
dibandingkan XGBoost pada kedua metode penarikan contoh yang digunakan.
Begitu juga jika dilihat interaksinya dengan faktor proporsi data contoh, Extra
Tree menghasilkan nilai F1-Score yang lebih tinggi daripada XGBoost pada
semua proporsi data contoh dan memiliki perbedaan rata-rata yang signifikan
pada proporsi data contoh diatas 1%. Selanjutnya, pola yang dihasilkan pada
model Extra Tree menunjukkan bahwa penggunaan metode penarikan contoh
acak bertingkat secara sistematik dapat menghasilkan nilai F1-Score yang lebih
tinggi pada proporsi data sebesar 1%, 5%, dan 15%. Sedangkan pada proporsi
data contoh yang lebih besar dari 15%, kedua metode penarikan contoh yang
digunakan menghasilkan nilai kebaikan model yang hampir serupa. Berdasarkan
hasil tersebut, penggunaan algoritma klasifikasi Extra Tree dengan metode
penarikan contoh acak bertingkat secara sistematik lebih disarankan dengan
proporsi data contoh sebesar 5% atau lebih.
Interpretasi model digunakan untuk mengetahui fitur penting pada model
peringkasan. Hal ini berguna untuk mengidentifikasi karakteristik kalimat yang
mencirikan suatu kalimat dianggap penting dan masuk ke dalam ringkasan. Dua
metode digunakan yaitu Permutation Feature Importance (PFI) dan SHapley
Additive ExPlanations (SHAP). Hasilnya adalah kedua metode menghasilkan fitur
penting dengan peringkat yang konsisten pada dua peringkat teratas yaitu fitur
posisi kalimat dan kata judul. Fitur TF-IDF, huruf kapital, dan panjang kalimat
menghasilkan peringkat kepentingan fitur yang berbeda pada kedua metode.
Namun, kedua metode memberikan hasil yang sama pada fitur yang memberikan
kontribusi paling rendah pada model yaitu fitur data numerik dan kata penanda.