View Item 
      •   IPB Repository
      • Dissertations and Theses
      • Undergraduate Theses
      • UT - Faculty of Mathematics and Natural Sciences
      • UT - Statistics and Data Sciences
      • View Item
      •   IPB Repository
      • Dissertations and Theses
      • Undergraduate Theses
      • UT - Faculty of Mathematics and Natural Sciences
      • UT - Statistics and Data Sciences
      • View Item
      JavaScript is disabled for your browser. Some features of this site may not work without it.

      Pengaruh Penggerombolan Topik Menggunakan Latent Dirichlet Allocation terhadap Performa Algoritma Klasifikasi pada Data Teks

      Thumbnail
      View/Open
      Full Text (5.093Mb)
      Date
      2024
      Author
      Hanapi, Perisai Zidane
      Masjkur, Mohammad
      Soleh, Agus Mohamad
      Metadata
      Show full item record
      Abstract
      Penggerombolan dilakukan untuk mendeteksi pola terselubung di dalam gugus data dengan cara mengelompokkan data yang serupa. Penggerombolan juga dapat dimanfaatkan dalam rekayasa fitur dengan cara menambahkan kolom berisi kategori atau peluang dari hasil penggerombolan. Hal tersebut dipercaya mampu meningkatkan performa klasifikasi. Data teks bersifat diskret, sehingga untuk penggerombolan digunakan metode Latent Dirichlet Allocation (LDA), dan penentuan banyak gerombol terbaik menggunakan ukuran koherensi Cv. Studi ini menguji apakah clustering dapat meningkatkan kinerja klasifikasi menggunakan berbagai gugus data teks dan algoritma pembelajaran mesin. Gugus data teks yang digunakan untuk eksperimen ini mencakup deteksi clickbait, prediksi sentimen, dan kategorisasi berita yang merepresentasikan masalah kelas biner dan multi-class di dunia nyata. Ketidakseimbangan kelas dalam dataset ditangani dengan teknik oversampling. Kinerja model klasifikasi dibandingkan antara data asli (menggunakan TF-IDF), data topik yang dikelompokkan (menggunakan LDA), dan gabungan dari keduanya. Algoritma yang digunakan meliputi regresi logistik, analisis diskriminan linear, KNN, dan random forest. Hasil penelitian menunjukkan bahwa data topik yang dikelompokkan menghasilkan kinerja terburuk pada semua algoritma. Sedangkan data asli dan gabungan tidak memiliki perbedaan yang signifikan pada regresi logistik dan analisis dikriminan, namun data gabungan mengalami penurunan kinerja pada model KNN dan random forest. Dengan demikian, kinerj model cenderung lebih buruk saat gerombol hasil pemodelan topik diperkenalkan. Oversampling mampu meningkatkan performa klasifikasi (diukur dengan skor F1), kecuali pada analisis diskiminan. Analisis diskriminan linear memiliki performa yang terbaik di setiap gugus data, sementara regresi logistik menempati posisi kedua terbaik.
      URI
      http://repository.ipb.ac.id/handle/123456789/146535
      Collections
      • UT - Statistics and Data Sciences [2260]

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository
        

       

      Browse

      All of IPB RepositoryCollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

      My Account

      Login

      Application

      google store

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository