Clustering Dokumen Ringkasan Tesis Mahasiswa Pascasarjana Ipb Berbasis Frequent Itemsets Menggunakan Algoritme Bisecting K-Means.

Setiawan, Ari

Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/81535

Title:	Clustering Dokumen Ringkasan Tesis Mahasiswa Pascasarjana Ipb Berbasis Frequent Itemsets Menggunakan Algoritme Bisecting K-Means.
Authors:	Sitanggang, Imas Sukaesih Hermadi, Irman Setiawan, Ari
Issue Date:	2016
Publisher:	IPB (Bogor Agricultural University)
Abstract:	Proses pencarian dokumen tesis mahasiswa Pascasarjana IPB pada repository IPB dapat dipercepat dengan cara mengelompokkan dokumen tersebut berdasarkan kata kunci dan kombinasi kata kunci yang sering muncul dalam dokumen tersebut. Metode frequent itemsets dapat memunculkan term-term yang frekuensi kemunculannya tinggi terhadap kumpulan dokumen. Term-term yang sering muncul dalam dokumen dapat mewakili sebuah dokumen. Dalam proses temu kembali dokumen, pada umumnya kata kunci dimasukkan oleh pengguna. Pengelompokkan dokumen berdasarkan frequent term (dalam hal ini kata kunci) dapat mempercepat pengembalian dokumen yang dicari. Penelitian ini dilakukan untuk menggali frequent itemsets dari kumpulan dokumen ringkasan tesis mahasiswa Pascasarjana IPB menggunakan algoritme Apriori. Proses clustering terhadap frequent itemsets yang terbentuk menggunakan algoritme Bisecting K-Means, untuk kemudian digunakan dalam proses clustering dokumen. Proses pencarian dokumen akan dilakukan terhadap dokumen yang telah dikelompokkan. Metode dalam penelitian ini diawali dengan mengumpulkan data ringkasan tesis mahasiswa Pascasarjana pada repositori IPB. Kemudian dilakukan praposes data yang meliputi tonization, remove number, stopword removal, stemming, remove punctuation, dan remove sparse term. Selanjutnya proses menggali frequent itemsets menggunakan algoritme Apriori dan pengelompokkan dokumen berbasis frequent itemsets menggunakan algoritme Bisecting K-Means. Tahap terakhir adalah melakukan analisis dan evaluasi hasil cluster. Pada tahap ini akan diuji pencarian dokumen terhadap kata kunci yang dimasukkan berdarakan itemsets yang dihasilkan. Hasil penelitian menunjukkan bahwa pengelompokan dokumen menggunakan algoritme Bisecting K-Means dapat pengelompokkan itemsets yang mempunyai nilai support tinggi. Pengujian dengan nilai k=3 sampai dengan k=10, pada pengujian k=10 dapat memperoleh hasil cluster yang baik, dengan nilai Sum of Squared Error yaitu 132.15. Pengujian dengan nilai k=10, cluster dua dapat mengelompokkan beberapa itemsets yang mempunyai nilai support tertinggi, yaitu itemsets {base,method}, {base,develop}, {analysi,base}, dan {base,product}. Akurasi hasil clustering berbasis frequent itemsets sangat dipengaruhi oleh term-term yang dihasilkan pada tahap praproses data, yaitu pada tahap penghapusan term berdasarkan tabel stopword, remove sparse term dan nilai minimum support (minsup) karena berdampak terhadap banyaknya jumlah frequent itemsets yang dihasilkan. Term-term yang dihasilkan dengan pendekatan frequent itemsets masih bersifat umum sehingga tidak dapat digunakan untuk pencarian dokumen dengan topik penelitian yang spesifik.
URI:	http://repository.ipb.ac.id/handle/123456789/81535
Appears in Collections:	MT - Mathematics and Natural Science

Files in This Item:

File	Size	Format
2016ase1.pdf Restricted Access	14.78 MB	Adobe PDF	View/Open

Show full item record Recommend this item

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets