Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/108451
Title: Kajian Pemodelan Topik dan Klasifikasi Label Ganda untuk Data Teks dengan Terapan pada Dokumen Paten Pupuk
Authors: Sartono, Bagus
Soleh, Agus Mohamad
Yaman, Aris
Issue Date: 2021
Publisher: IPB University
Abstract: Kasus-kasus pemodelan klasifikasi dapat dikategorikan sesuai dengan jumlah kelas atau label pada output klasifikasi. Pendekatan paling umum yang selama ini banyak dilakukan dengan memperlakukan tiap contoh hanya memiliki tepat satu kelas atau label. Pada pembelajaran mesin (Machine Learning, ML) terkhusus klasifikasi, seringkali terkendala untuk mengklasifikasi objek ke lebih dari satu label (label ganda). Hal ini dihadapkan pada kenyataan bahwa sebagian besar masalah klasifikasi yang diselidiki dalam ML adalah masalah klasifikasi label tunggal. Beberapa kasus label ganda terkadang mengasumsikan bahwa antar label memiliki korelasi. Pendekatan paling umum yang dilakukan dalam kasus klasifikasi label ganda yaitu dengan melakukan satu persatu klasifikasi label tunggal untuk setiap label peubah respon (binary relevance). Hal ini menjadi kendala ketika menggunakan metode transformasi kasus dengan teknik binary relevance, karena menganggap tidak terjadinya korelasi antar label. Teknik classifer chain dalam metode transformasi kasus, mempertimbangkan adanya dependensi antar label. Sejalan dengan adanya kendala korelasi antar label, metode Multi-label K-Nearest Neighbour (ML-KNN) berusaha menyelesaikan permasalahan label ganda dengan memperhatikan korelasi antar label. Penentuan klasifikasi teknologi suatu dokumen paten merupakan salah satu contoh kasus klasifikasi label ganda dengan asumsi adanya korelasi antar label. Dalam hal interpretasi, klasifikasi label ganda pada data teks seringkali peubah-peubah penjelas sulit untuk dipahami pemaknaannya. Hal ini diperlukan upaya transformasi pada sebaran kata peubah penjelas. Latent Dirichlet Allocation (LDA) memberikan output berupa daftar topik yang diberi bobot untuk masing-masing dokumen. Pendekatan LDA dengan kata lain dapat melakukan transformasi pada sebaran kata menjadi sebaran topik. Berdasarkan hal ini, pemodelan topik memberikan pemaknaan pada peubah penjelas. Tujuan yang hendak dicapai dalam penelitian ini diantaranya melihat hubungan antara intrepretabilitas topik dengan kinerja pemodelan klasifikasi label ganda. Mengkombinasikan model representasi dan klasifikasi label ganda. Mencari model otomatisasi dan pendekatan terbaik dalam klasifikasi label ganda, terkhusus ketika diaplikasikan pada dokumen paten terkait teknologi pengembangan pupuk. Titik optimum nilai koherensi jatuh pada saat banyaknya topik sejumlah sembilan, sementara titik optimum kinerja pemodelan klasifikasi label ganda (parameter evaluasi Mikro-F1) terjadi ketika jumlah topik sebanyak 23. Hal ini memberikan gambaran deskriptif bahwa antara nilai koherensi dan evaluasi kinerja pemodelan klasifikasi label ganda tidak terdapat hubungan secara langsung. Pemodelan klasifikasi label ganda pada seksi IPC “A” menunjukkan bahwa pendekatan peubah penjelas topik unggul sebanyak enam skema perbandingan parameter evaluasi sedangkan pendekatan berdasarkan peubah penjelas berupa frekuensi kemuculan suatu kata dalam suatu dokumen (term frequency/TF) hanya unggul di dua skema perbandingan parameter evaluasi. Pada Pemodelan klasifikasi label ganda seksi IPC “A” ini juga ditemukan bahwa metode CC-KNN unggul di parameter evaluasi Mikro-F1 dan Akurasi, sementara ML-KNN unggul di parameter evaluasi Hamming-loss dan One-error. Pengambilan keputusan metode terbaik ketika jumlah skema perbandingan berimbang adalah dengan memilih metode yang didalamnya unggul dalam hal parameter evaluasi Mikro-F1. Berdasarkan hal ini CC-KNN dianggap metode yang lebih baik jika dibandingkan metode CC-KNN untuk pemodelan klasifikasi label ganda pada seksi IPC “A”. Pemodelan klasifikasi label ganda untuk seksi IPC “C” menunjukkan bahwa pendekatan LDA (peubah penjelas topik) unggul dalam enam skema perbandingan parameter evaluasi, sementara pendekatan TF (peubah penjelas TF) unggul pada dua skema perbandingan parameter evaluasi. Metode CC-KNN pada klasifikasi label ganda seksi IPC “C” ini unggul di tiga parameter evaluasi, sedangkan metode ML-KNN unggul di satu parameter evaluasi. Kesimpulan sementara pemodelan klasifikasi pada seksi IPC “C” ini didapati bahwa pendekatan peubha penjelas topik lebih baik jika dibandingkan peubah penjelas TF. Metode CC-KNN merupakan metode terbaik dalama pemodelan klasifikasi label ganda untuk seksi IPC “C” jika dibandingkan dengan metode ML-KNN. Hasil penelitian menunjukkan bahwa tidak terdapat indikasi hubungan antara intrepretabilitas topik dan kebaikan pemodelan klasifikasi label ganda. Pemodelan klasifikasi label ganda dengan pendekatan LDA memberikan hasil yang lebih baik jika dibandingkan dengan pendekatan peubah penjelas berdasarkan kemuculan suatu kata/frase (term frequency/TF). Apabila dilihat dari empat parameter evaluasi model dalam penelitian ini, metode CC-KNN memberikan hasil yang lebih baik dibanding ML-KNN.
URI: http://repository.ipb.ac.id/handle/123456789/108451
Appears in Collections:MT - Mathematics and Natural Science

Files in This Item:
File Description SizeFormat 
Cover.pdf
  Restricted Access
Cover9.24 MBAdobe PDFView/Open
G151190071_Aris Yaman.pdf
  Restricted Access
Fullteks43.46 MBAdobe PDFView/Open
Lampiran.pdf
  Restricted Access
Lampiran22.94 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.