Clustering Dokumen Ringkasan Tesis Mahasiswa Pascasarjana Ipb Berbasis Frequent Itemsets Menggunakan Algoritme Bisecting K-Means.
View/ Open
Date
2016Author
Setiawan, Ari
Sitanggang, Imas Sukaesih
Hermadi, Irman
Metadata
Show full item recordAbstract
Proses pencarian dokumen tesis mahasiswa Pascasarjana IPB pada
repository IPB dapat dipercepat dengan cara mengelompokkan dokumen tersebut
berdasarkan kata kunci dan kombinasi kata kunci yang sering muncul dalam
dokumen tersebut. Metode frequent itemsets dapat memunculkan term-term yang
frekuensi kemunculannya tinggi terhadap kumpulan dokumen. Term-term yang
sering muncul dalam dokumen dapat mewakili sebuah dokumen. Dalam proses
temu kembali dokumen, pada umumnya kata kunci dimasukkan oleh pengguna.
Pengelompokkan dokumen berdasarkan frequent term (dalam hal ini kata kunci)
dapat mempercepat pengembalian dokumen yang dicari.
Penelitian ini dilakukan untuk menggali frequent itemsets dari kumpulan
dokumen ringkasan tesis mahasiswa Pascasarjana IPB menggunakan algoritme
Apriori. Proses clustering terhadap frequent itemsets yang terbentuk
menggunakan algoritme Bisecting K-Means, untuk kemudian digunakan dalam
proses clustering dokumen. Proses pencarian dokumen akan dilakukan terhadap
dokumen yang telah dikelompokkan.
Metode dalam penelitian ini diawali dengan mengumpulkan data
ringkasan tesis mahasiswa Pascasarjana pada repositori IPB. Kemudian dilakukan
praposes data yang meliputi tonization, remove number, stopword removal,
stemming, remove punctuation, dan remove sparse term. Selanjutnya proses
menggali frequent itemsets menggunakan algoritme Apriori dan pengelompokkan
dokumen berbasis frequent itemsets menggunakan algoritme Bisecting K-Means.
Tahap terakhir adalah melakukan analisis dan evaluasi hasil cluster. Pada tahap
ini akan diuji pencarian dokumen terhadap kata kunci yang dimasukkan
berdarakan itemsets yang dihasilkan.
Hasil penelitian menunjukkan bahwa pengelompokan dokumen
menggunakan algoritme Bisecting K-Means dapat pengelompokkan itemsets yang
mempunyai nilai support tinggi. Pengujian dengan nilai k=3 sampai dengan k=10,
pada pengujian k=10 dapat memperoleh hasil cluster yang baik, dengan nilai Sum
of Squared Error yaitu 132.15. Pengujian dengan nilai k=10, cluster dua dapat
mengelompokkan beberapa itemsets yang mempunyai nilai support tertinggi,
yaitu itemsets {base,method}, {base,develop}, {analysi,base}, dan
{base,product}. Akurasi hasil clustering berbasis frequent itemsets sangat
dipengaruhi oleh term-term yang dihasilkan pada tahap praproses data, yaitu pada
tahap penghapusan term berdasarkan tabel stopword, remove sparse term dan nilai
minimum support (minsup) karena berdampak terhadap banyaknya jumlah
frequent itemsets yang dihasilkan. Term-term yang dihasilkan dengan pendekatan
frequent itemsets masih bersifat umum sehingga tidak dapat digunakan untuk
pencarian dokumen dengan topik penelitian yang spesifik.