Show simple item record

Text Feature Weighting for Summarization of Document Bahasa Indonesia Using Genetic Algorithm.

dc.contributor.advisorHerdiyeni, Yeni
dc.contributor.advisorRidha, Ahmad
dc.contributor.authorAristoteles
dc.date.accessioned2011-06-30T06:42:16Z
dc.date.available2011-06-30T06:42:16Z
dc.date.issued2011
dc.identifier.urihttp://repository.ipb.ac.id/handle/123456789/46503
dc.description.abstractThis thesis aims to perform text feature weighting for summarization of document bahasa Indonesia using genetic algorithm. There are eleven text features, i.e, sentence position (f1), positive keywords in sentence (f2), negative keywords in sentence (f3), sentence centrality (f4), sentence resemblance to the title (f5), sentence inclusion of name entity (f6), sentence inclusion of numerical data (f7), sentence relative length (f8), bushy path of the node (f9), summation of similarities for each node (f10), and latent semantic feature (f11). We investigate the effect of the first ten sentence features on the summarization task. Then, we use latent semantic feature to increase the accuracy. All feature score functions are used to train a genetic algorithm model to obtain a suitable combination of feature weights. Evaluation of text summarization uses F-measure. The F-measure directly related to the compression rate. The results showed that adding f11 increases the F-measure by 3.26% and 1.55% for compression ratio of 10% and 30%, respectively. On the other hand, it decreases the F-measure by 0.58% for compression ratio of 20%. Analysis of text feature weight showed that only using f2, f4, f5, and f11 can deliver a similar performance using all eleven features.en
dc.description.abstractMemahami isi dokumen melalui ringkasan teks dokumen memerlukan waktu yang lebih singkat dibandingkan membaca seluruh isi dokumen, sehingga ringkasan teks menjadi sangat penting. Namun demikian, membuat ringkasan dokumen memerlukan waktu dan biaya yang banyak bila dokumen yang diringkas berjumlah banyak dan isi dokumen yang panjang. Oleh karena itu, ringkasan teks dokumen secara otomatis diperlukan untuk mengatasi masalah waktu baca dan biaya. Penelitian ini bertujuan untuk melakukan optimasi peringkasan teks dengan menggunakan algoritme genetika dan menganalisa penambahan ekstraksi fitur teks kalimat semantik menggunakan teknik singular value decomposition. Penelitian ini menggunakan beberapa fitur teks dalam melakukan peringkasan teks dokumen seperti posisi kalimat, positive keyword, negative keyword, kemiripan antar-kalimat, kalimat yang menyerupai judul, kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik, koneksi antarkalimat, penjumlahan bobot koneksi antar-kalimat, dan kalimat semantik. Fitur teks kalimat semantik menggunakan teknik singular value decomposition (SVD). Penentuan bobot dari tiap fitur teks menggunakan teknik algoritme genetika. Penelitian ini terdiri dari tiga tahap yaitu: tahap pengumpulan dokumen, tahap pelatihan, dan tahap pengujian. Pada tahap pengumupulan dokumen, dokumen yang digunakan berjenis teks dengan format xml berjumlah 150 dokumen, 100 dokumen pelatihan dan 50 dokumen pengujianid
dc.publisherIPB (Bogor Agricultural University)
dc.subjectText Summarizationen
dc.subjectGenetic algorithmen
dc.subjectLatent semantic featureen
dc.titlePembobotan fitur pada peringkasan teks bahasa Indonesia menggunakan algoritme genetikaid
dc.titleText Feature Weighting for Summarization of Document Bahasa Indonesia Using Genetic Algorithm.en


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record