Show simple item record

dc.contributor.advisorSyafitri, Utami Dyah
dc.contributor.advisorWijayanto, Hari
dc.contributor.authorClarissa, Annebel Diestya
dc.date.accessioned2023-07-05T15:08:18Z
dc.date.available2023-07-05T15:08:18Z
dc.date.issued2023-06-20
dc.identifier.urihttp://repository.ipb.ac.id/handle/123456789/120900
dc.description.abstractPeringkasan teks adalah teknik untuk memperpendek dokumen teks yang panjang dari berbagai sumber teks seperti blog, makalah penelitian, artikel berita, dan email. Peringkasan teks dapat dilakukan dengan dua pendekatan yaitu pendekatan ekstraktif dan abstraktif. Pendekatan ekstraktif menggunakan pendekatan statistik (selection based) dengan memilih dan menyalin kalimat penting untuk membuat ringkasan, sedangkan metode abstraktif menggunakan pendekatan pengetahuan (knowledge based) dengan mengambil ide utama dari dokumen asal dan kemudian membuat ringkasan dengan kalimat baru. Pendekatan ekstraktif menganggap peringkasan teks sebagai masalah klasifikasi dimana tiap kalimat diberi bobot dan diklasifikasikan masuk atau tidak ke dalam ringkasan. Tantangan dalam peringkasan teks ekstraktif saat ini yaitu pemilihan serta kombinasi fitur dan penentuan teknik peringkasan untuk mendapatkan ringkasan yang lebih baik. Fitur adalah karakteristik atau indikator dari kalimat yang diekstrak untuk menghasilkan ringkasan. Teknik atau pendekatan yang banyak digunakan dan dapat dipadukan adalah pendekatan statistik dan pembelajaran mesin. Penggunaan algoritma klasifikasi pembelajaran mesin terutama menggunakan data yang besar tentunya memerlukan waktu dan sumber daya yang besar. Salah satu cara yang dapat dilakukan untuk efisiensi proses serta mempermudah proses selanjutnya adalah dengan melakukan reduksi data. Reduksi data dapat dilakukan dengan reduksi dimensi, pemilihan fitur, kompresi data, dan sebagainya. Penarikan contoh yang merupakan suatu teknik untuk memilih sebagian data representatif dari keseluruhan set data merupakan salah satu metode yang data digunakan untuk reduksi data yang diharapkan dapat memberikan hasil yang memuaskan dengan set data yang lebih kecil. Terkait latar belakang yang telah dipaparkan, penelitian ini berfokus untuk mengkaji pengaruh proporsi data contoh, metode penarikan contoh, serta algoritma klasifikasi pembelajaran mesin dalam peringkasan artikel berita berbahasa Indonesia. Data yang digunakan adalah set data IndoSum yang berisi kumpulan artikel berita berbahasa Indonesia dengan metode penarikan contoh yang dibandingkan yaitu penarikan contoh acak bertingkat secara sederhana dan sistematik pada tujuh proporsi data contoh untuk dilihat pengaruhnya terhadap model peringkasan. Algoritma klasifikasi pembelajaran mesin Extremely Randomized Tree (Extra Tree) dan eXtreme Gradient Boosting (XGBoost) digunakan dan diperbandingkan kinerjanya dalam peringkasan teks dengan ukuran kebaikan model yang digunakan adalah nilai F1-Score. Selanjutnya, dari model yang dihasilkan juga dikaji fitur yang penting dengan menggunakan metode Permutation Feature Importance (PFI) dan SHapley Additive ExPlanations (SHAP) untuk mengetahui karakteristik kalimat yang mencirikan kalimat tersebut sebagai kalimat penting yang masuk ke dalam ringkasan. Uji sidik ragam berdasarkan rancangan faktorial tiga faktor dalam rancangan acak kelompok lengkap digunakan untuk menganalisis nilai kebaikan model F1-Score. Hasil penelitian menyimpulkan bahwa interaksi tiga faktor yang tidak signifikan mengindikasikan bahwa terdapat perbedaan pengaruh antara ketiga faktor terhadap F1-Score, namun pengaruh tersebut tidak bergantung dari interaksi taraf-taraf ketiga faktor. Pengaruh kelompok yaitu sumber berita, proporsi data contoh dan algoritma klasifikasi sebagai faktor utama, serta interaksi dua faktor signifikan pada alpha = 5%. Hasil uji lanjut tukey pada interaksi dua faktor menunjukkan bahwa algoritma Extra Tree memiliki kinerja lebih baik dibandingkan XGBoost pada kedua metode penarikan contoh yang digunakan. Begitu juga jika dilihat interaksinya dengan faktor proporsi data contoh, Extra Tree menghasilkan nilai F1-Score yang lebih tinggi daripada XGBoost pada semua proporsi data contoh dan memiliki perbedaan rata-rata yang signifikan pada proporsi data contoh diatas 1%. Selanjutnya, pola yang dihasilkan pada model Extra Tree menunjukkan bahwa penggunaan metode penarikan contoh acak bertingkat secara sistematik dapat menghasilkan nilai F1-Score yang lebih tinggi pada proporsi data sebesar 1%, 5%, dan 15%. Sedangkan pada proporsi data contoh yang lebih besar dari 15%, kedua metode penarikan contoh yang digunakan menghasilkan nilai kebaikan model yang hampir serupa. Berdasarkan hasil tersebut, penggunaan algoritma klasifikasi Extra Tree dengan metode penarikan contoh acak bertingkat secara sistematik lebih disarankan dengan proporsi data contoh sebesar 5% atau lebih. Interpretasi model digunakan untuk mengetahui fitur penting pada model peringkasan. Hal ini berguna untuk mengidentifikasi karakteristik kalimat yang mencirikan suatu kalimat dianggap penting dan masuk ke dalam ringkasan. Dua metode digunakan yaitu Permutation Feature Importance (PFI) dan SHapley Additive ExPlanations (SHAP). Hasilnya adalah kedua metode menghasilkan fitur penting dengan peringkat yang konsisten pada dua peringkat teratas yaitu fitur posisi kalimat dan kata judul. Fitur TF-IDF, huruf kapital, dan panjang kalimat menghasilkan peringkat kepentingan fitur yang berbeda pada kedua metode. Namun, kedua metode memberikan hasil yang sama pada fitur yang memberikan kontribusi paling rendah pada model yaitu fitur data numerik dan kata penanda.id
dc.language.isoidid
dc.publisherIPB Universityid
dc.titleKajian Pengaruh Metode Penarikan Contoh dan Algoritma Klasifikasi Pembelajaran Mesin terhadap Artikel Beritaid
dc.typeThesisid
dc.subject.keywordKlasifikasiid
dc.subject.keywordRancangan Faktorialid
dc.subject.keywordPeringkasanid
dc.subject.keywordExtra Treeid
dc.subject.keywordXGBoostid


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record