Show simple item record

dc.contributor.advisorMasjkur, Mohammad
dc.contributor.advisorSoleh, Agus Mohamad
dc.contributor.authorHanapi, Perisai Zidane
dc.date.accessioned2024-04-21T23:39:41Z
dc.date.available2024-04-21T23:39:41Z
dc.date.issued2024
dc.identifier.urihttp://repository.ipb.ac.id/handle/123456789/146535
dc.description.abstractPenggerombolan dilakukan untuk mendeteksi pola terselubung di dalam gugus data dengan cara mengelompokkan data yang serupa. Penggerombolan juga dapat dimanfaatkan dalam rekayasa fitur dengan cara menambahkan kolom berisi kategori atau peluang dari hasil penggerombolan. Hal tersebut dipercaya mampu meningkatkan performa klasifikasi. Data teks bersifat diskret, sehingga untuk penggerombolan digunakan metode Latent Dirichlet Allocation (LDA), dan penentuan banyak gerombol terbaik menggunakan ukuran koherensi Cv. Studi ini menguji apakah clustering dapat meningkatkan kinerja klasifikasi menggunakan berbagai gugus data teks dan algoritma pembelajaran mesin. Gugus data teks yang digunakan untuk eksperimen ini mencakup deteksi clickbait, prediksi sentimen, dan kategorisasi berita yang merepresentasikan masalah kelas biner dan multi-class di dunia nyata. Ketidakseimbangan kelas dalam dataset ditangani dengan teknik oversampling. Kinerja model klasifikasi dibandingkan antara data asli (menggunakan TF-IDF), data topik yang dikelompokkan (menggunakan LDA), dan gabungan dari keduanya. Algoritma yang digunakan meliputi regresi logistik, analisis diskriminan linear, KNN, dan random forest. Hasil penelitian menunjukkan bahwa data topik yang dikelompokkan menghasilkan kinerja terburuk pada semua algoritma. Sedangkan data asli dan gabungan tidak memiliki perbedaan yang signifikan pada regresi logistik dan analisis dikriminan, namun data gabungan mengalami penurunan kinerja pada model KNN dan random forest. Dengan demikian, kinerj model cenderung lebih buruk saat gerombol hasil pemodelan topik diperkenalkan. Oversampling mampu meningkatkan performa klasifikasi (diukur dengan skor F1), kecuali pada analisis diskiminan. Analisis diskriminan linear memiliki performa yang terbaik di setiap gugus data, sementara regresi logistik menempati posisi kedua terbaik.id
dc.language.isoidid
dc.publisherIPB Universityid
dc.titlePengaruh Penggerombolan Topik Menggunakan Latent Dirichlet Allocation terhadap Performa Algoritma Klasifikasi pada Data Teksid
dc.title.alternativeThe Impact of Latent Dirichlet Allocation Topic Modelling on Classification Algorithm Performance on Text Dataid
dc.typeUndergraduate Thesisid
dc.subject.keyworddeteksi clickbaitid
dc.subject.keywordkategorisasi beritaid
dc.subject.keywordlatent dirichlet allocationid
dc.subject.keywordprediksi sentimenid
dc.subject.keywordukuran koherensiid


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record