Clustering Dokumen Ringkasan Tesis Mahasiswa Pascasarjana Ipb Berbasis Frequent Itemsets Menggunakan Algoritme Bisecting K-Means.

Setiawan, Ari

View/Open

2016ase1.pdf (14.43Mb)

Date

2016

Author

Setiawan, Ari

Sitanggang, Imas Sukaesih

Hermadi, Irman

Metadata

Show full item record

Abstract

Proses pencarian dokumen tesis mahasiswa Pascasarjana IPB pada repository IPB dapat dipercepat dengan cara mengelompokkan dokumen tersebut berdasarkan kata kunci dan kombinasi kata kunci yang sering muncul dalam dokumen tersebut. Metode frequent itemsets dapat memunculkan term-term yang frekuensi kemunculannya tinggi terhadap kumpulan dokumen. Term-term yang sering muncul dalam dokumen dapat mewakili sebuah dokumen. Dalam proses temu kembali dokumen, pada umumnya kata kunci dimasukkan oleh pengguna. Pengelompokkan dokumen berdasarkan frequent term (dalam hal ini kata kunci) dapat mempercepat pengembalian dokumen yang dicari. Penelitian ini dilakukan untuk menggali frequent itemsets dari kumpulan dokumen ringkasan tesis mahasiswa Pascasarjana IPB menggunakan algoritme Apriori. Proses clustering terhadap frequent itemsets yang terbentuk menggunakan algoritme Bisecting K-Means, untuk kemudian digunakan dalam proses clustering dokumen. Proses pencarian dokumen akan dilakukan terhadap dokumen yang telah dikelompokkan. Metode dalam penelitian ini diawali dengan mengumpulkan data ringkasan tesis mahasiswa Pascasarjana pada repositori IPB. Kemudian dilakukan praposes data yang meliputi tonization, remove number, stopword removal, stemming, remove punctuation, dan remove sparse term. Selanjutnya proses menggali frequent itemsets menggunakan algoritme Apriori dan pengelompokkan dokumen berbasis frequent itemsets menggunakan algoritme Bisecting K-Means. Tahap terakhir adalah melakukan analisis dan evaluasi hasil cluster. Pada tahap ini akan diuji pencarian dokumen terhadap kata kunci yang dimasukkan berdarakan itemsets yang dihasilkan. Hasil penelitian menunjukkan bahwa pengelompokan dokumen menggunakan algoritme Bisecting K-Means dapat pengelompokkan itemsets yang mempunyai nilai support tinggi. Pengujian dengan nilai k=3 sampai dengan k=10, pada pengujian k=10 dapat memperoleh hasil cluster yang baik, dengan nilai Sum of Squared Error yaitu 132.15. Pengujian dengan nilai k=10, cluster dua dapat mengelompokkan beberapa itemsets yang mempunyai nilai support tertinggi, yaitu itemsets {base,method}, {base,develop}, {analysi,base}, dan {base,product}. Akurasi hasil clustering berbasis frequent itemsets sangat dipengaruhi oleh term-term yang dihasilkan pada tahap praproses data, yaitu pada tahap penghapusan term berdasarkan tabel stopword, remove sparse term dan nilai minimum support (minsup) karena berdampak terhadap banyaknya jumlah frequent itemsets yang dihasilkan. Term-term yang dihasilkan dengan pendekatan frequent itemsets masih bersifat umum sehingga tidak dapat digunakan untuk pencarian dokumen dengan topik penelitian yang spesifik.

URI

http://repository.ipb.ac.id/handle/123456789/81535

Collections

MT - Mathematics and Natural Science [4162]