Please use this identifier to cite or link to this item:
Title: Pembobotan fitur pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika
Text Feature Weighting for Summarization of Document Bahasa Indonesia Using Genetic Algorithm.
Authors: Herdiyeni, Yeni
Ridha, Ahmad
Keywords: Text Summarization
Genetic algorithm
Latent semantic feature
Issue Date: 2011
Publisher: IPB (Bogor Agricultural University)
Abstract: This thesis aims to perform text feature weighting for summarization of document bahasa Indonesia using genetic algorithm. There are eleven text features, i.e, sentence position (f1), positive keywords in sentence (f2), negative keywords in sentence (f3), sentence centrality (f4), sentence resemblance to the title (f5), sentence inclusion of name entity (f6), sentence inclusion of numerical data (f7), sentence relative length (f8), bushy path of the node (f9), summation of similarities for each node (f10), and latent semantic feature (f11). We investigate the effect of the first ten sentence features on the summarization task. Then, we use latent semantic feature to increase the accuracy. All feature score functions are used to train a genetic algorithm model to obtain a suitable combination of feature weights. Evaluation of text summarization uses F-measure. The F-measure directly related to the compression rate. The results showed that adding f11 increases the F-measure by 3.26% and 1.55% for compression ratio of 10% and 30%, respectively. On the other hand, it decreases the F-measure by 0.58% for compression ratio of 20%. Analysis of text feature weight showed that only using f2, f4, f5, and f11 can deliver a similar performance using all eleven features.
Memahami isi dokumen melalui ringkasan teks dokumen memerlukan waktu yang lebih singkat dibandingkan membaca seluruh isi dokumen, sehingga ringkasan teks menjadi sangat penting. Namun demikian, membuat ringkasan dokumen memerlukan waktu dan biaya yang banyak bila dokumen yang diringkas berjumlah banyak dan isi dokumen yang panjang. Oleh karena itu, ringkasan teks dokumen secara otomatis diperlukan untuk mengatasi masalah waktu baca dan biaya. Penelitian ini bertujuan untuk melakukan optimasi peringkasan teks dengan menggunakan algoritme genetika dan menganalisa penambahan ekstraksi fitur teks kalimat semantik menggunakan teknik singular value decomposition. Penelitian ini menggunakan beberapa fitur teks dalam melakukan peringkasan teks dokumen seperti posisi kalimat, positive keyword, negative keyword, kemiripan antar-kalimat, kalimat yang menyerupai judul, kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik, koneksi antarkalimat, penjumlahan bobot koneksi antar-kalimat, dan kalimat semantik. Fitur teks kalimat semantik menggunakan teknik singular value decomposition (SVD). Penentuan bobot dari tiap fitur teks menggunakan teknik algoritme genetika. Penelitian ini terdiri dari tiga tahap yaitu: tahap pengumpulan dokumen, tahap pelatihan, dan tahap pengujian. Pada tahap pengumupulan dokumen, dokumen yang digunakan berjenis teks dengan format xml berjumlah 150 dokumen, 100 dokumen pelatihan dan 50 dokumen pengujian
Appears in Collections:MT - Mathematics and Natural Science

Files in This Item:
File Description SizeFormat 
  Restricted Access
fulltext897.43 kBAdobe PDFView/Open
Abstract_ 2011ari1.pdf
  Restricted Access
abstract318.61 kBAdobe PDFView/Open
BAB I Pendahuluan_ 2011ari1.pdf
  Restricted Access
BAB I393.1 kBAdobe PDFView/Open
BAB II Tinjauan Pustaka_ 2011ari1.pdf
  Restricted Access
BAB II560.2 kBAdobe PDFView/Open
BAB III Metode Penelitian_ 2011ari1.pdf
  Restricted Access
BAB III452.1 kBAdobe PDFView/Open
BAB IV Hasil dan Pembahasan_ 2011ari1.pdf
  Restricted Access
BAB IV519.26 kBAdobe PDFView/Open
BAB V Kesimpulan_ 2011ari1.pdf
  Restricted Access
BAB V389.3 kBAdobe PDFView/Open
  Restricted Access
cover388.55 kBAdobe PDFView/Open
Daftar Pustaka_ 2011ari1.pdf
  Restricted Access
Daftar Pustaka375.09 kBAdobe PDFView/Open
Lampiran_ 2011ari1.pdf
  Restricted Access
Lampiran377.93 kBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.