View Item 
      •   IPB Repository
      • Dissertations and Theses
      • Master Theses
      • MT - Mathematics and Natural Science
      • View Item
      •   IPB Repository
      • Dissertations and Theses
      • Master Theses
      • MT - Mathematics and Natural Science
      • View Item
      JavaScript is disabled for your browser. Some features of this site may not work without it.

      Kajian Pengaruh Metode Penarikan Contoh dan Algoritma Klasifikasi Pembelajaran Mesin terhadap Artikel Berita

      Thumbnail
      View/Open
      Cover (365.1Kb)
      Fulltext (5.530Mb)
      Date
      2023-06-20
      Author
      Clarissa, Annebel Diestya
      Syafitri, Utami Dyah
      Wijayanto, Hari
      Metadata
      Show full item record
      Abstract
      Peringkasan teks adalah teknik untuk memperpendek dokumen teks yang panjang dari berbagai sumber teks seperti blog, makalah penelitian, artikel berita, dan email. Peringkasan teks dapat dilakukan dengan dua pendekatan yaitu pendekatan ekstraktif dan abstraktif. Pendekatan ekstraktif menggunakan pendekatan statistik (selection based) dengan memilih dan menyalin kalimat penting untuk membuat ringkasan, sedangkan metode abstraktif menggunakan pendekatan pengetahuan (knowledge based) dengan mengambil ide utama dari dokumen asal dan kemudian membuat ringkasan dengan kalimat baru. Pendekatan ekstraktif menganggap peringkasan teks sebagai masalah klasifikasi dimana tiap kalimat diberi bobot dan diklasifikasikan masuk atau tidak ke dalam ringkasan. Tantangan dalam peringkasan teks ekstraktif saat ini yaitu pemilihan serta kombinasi fitur dan penentuan teknik peringkasan untuk mendapatkan ringkasan yang lebih baik. Fitur adalah karakteristik atau indikator dari kalimat yang diekstrak untuk menghasilkan ringkasan. Teknik atau pendekatan yang banyak digunakan dan dapat dipadukan adalah pendekatan statistik dan pembelajaran mesin. Penggunaan algoritma klasifikasi pembelajaran mesin terutama menggunakan data yang besar tentunya memerlukan waktu dan sumber daya yang besar. Salah satu cara yang dapat dilakukan untuk efisiensi proses serta mempermudah proses selanjutnya adalah dengan melakukan reduksi data. Reduksi data dapat dilakukan dengan reduksi dimensi, pemilihan fitur, kompresi data, dan sebagainya. Penarikan contoh yang merupakan suatu teknik untuk memilih sebagian data representatif dari keseluruhan set data merupakan salah satu metode yang data digunakan untuk reduksi data yang diharapkan dapat memberikan hasil yang memuaskan dengan set data yang lebih kecil. Terkait latar belakang yang telah dipaparkan, penelitian ini berfokus untuk mengkaji pengaruh proporsi data contoh, metode penarikan contoh, serta algoritma klasifikasi pembelajaran mesin dalam peringkasan artikel berita berbahasa Indonesia. Data yang digunakan adalah set data IndoSum yang berisi kumpulan artikel berita berbahasa Indonesia dengan metode penarikan contoh yang dibandingkan yaitu penarikan contoh acak bertingkat secara sederhana dan sistematik pada tujuh proporsi data contoh untuk dilihat pengaruhnya terhadap model peringkasan. Algoritma klasifikasi pembelajaran mesin Extremely Randomized Tree (Extra Tree) dan eXtreme Gradient Boosting (XGBoost) digunakan dan diperbandingkan kinerjanya dalam peringkasan teks dengan ukuran kebaikan model yang digunakan adalah nilai F1-Score. Selanjutnya, dari model yang dihasilkan juga dikaji fitur yang penting dengan menggunakan metode Permutation Feature Importance (PFI) dan SHapley Additive ExPlanations (SHAP) untuk mengetahui karakteristik kalimat yang mencirikan kalimat tersebut sebagai kalimat penting yang masuk ke dalam ringkasan. Uji sidik ragam berdasarkan rancangan faktorial tiga faktor dalam rancangan acak kelompok lengkap digunakan untuk menganalisis nilai kebaikan model F1-Score. Hasil penelitian menyimpulkan bahwa interaksi tiga faktor yang tidak signifikan mengindikasikan bahwa terdapat perbedaan pengaruh antara ketiga faktor terhadap F1-Score, namun pengaruh tersebut tidak bergantung dari interaksi taraf-taraf ketiga faktor. Pengaruh kelompok yaitu sumber berita, proporsi data contoh dan algoritma klasifikasi sebagai faktor utama, serta interaksi dua faktor signifikan pada alpha = 5%. Hasil uji lanjut tukey pada interaksi dua faktor menunjukkan bahwa algoritma Extra Tree memiliki kinerja lebih baik dibandingkan XGBoost pada kedua metode penarikan contoh yang digunakan. Begitu juga jika dilihat interaksinya dengan faktor proporsi data contoh, Extra Tree menghasilkan nilai F1-Score yang lebih tinggi daripada XGBoost pada semua proporsi data contoh dan memiliki perbedaan rata-rata yang signifikan pada proporsi data contoh diatas 1%. Selanjutnya, pola yang dihasilkan pada model Extra Tree menunjukkan bahwa penggunaan metode penarikan contoh acak bertingkat secara sistematik dapat menghasilkan nilai F1-Score yang lebih tinggi pada proporsi data sebesar 1%, 5%, dan 15%. Sedangkan pada proporsi data contoh yang lebih besar dari 15%, kedua metode penarikan contoh yang digunakan menghasilkan nilai kebaikan model yang hampir serupa. Berdasarkan hasil tersebut, penggunaan algoritma klasifikasi Extra Tree dengan metode penarikan contoh acak bertingkat secara sistematik lebih disarankan dengan proporsi data contoh sebesar 5% atau lebih. Interpretasi model digunakan untuk mengetahui fitur penting pada model peringkasan. Hal ini berguna untuk mengidentifikasi karakteristik kalimat yang mencirikan suatu kalimat dianggap penting dan masuk ke dalam ringkasan. Dua metode digunakan yaitu Permutation Feature Importance (PFI) dan SHapley Additive ExPlanations (SHAP). Hasilnya adalah kedua metode menghasilkan fitur penting dengan peringkat yang konsisten pada dua peringkat teratas yaitu fitur posisi kalimat dan kata judul. Fitur TF-IDF, huruf kapital, dan panjang kalimat menghasilkan peringkat kepentingan fitur yang berbeda pada kedua metode. Namun, kedua metode memberikan hasil yang sama pada fitur yang memberikan kontribusi paling rendah pada model yaitu fitur data numerik dan kata penanda.
      URI
      http://repository.ipb.ac.id/handle/123456789/120900
      Collections
      • MT - Mathematics and Natural Science [4139]

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository
        

       

      Browse

      All of IPB RepositoryCollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

      My Account

      Login

      Application

      google store

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository