Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/102886
Title: Kajian Perbandingan Metode K-Means dan K-Medoids untuk Menggerombolkan Data Twitter.
Authors: Notodiputro, Khairil Anwar
Indahwati
Oktarina, Cahyani
Issue Date: 2020
Publisher: IPB University
Abstract: Data mining merupakan upaya menggali informasi yang tersembunyi dan berharga dari suatu kumpulan data yang sangat besar yang tersimpan dalam suatu data base. Untuk mengetahui informasi dari data base tersebut diperlukan teknik analisis data. Penggerombolan merupakan salah satu teknik deskripsi dari analisis data mining. Analisis gerombol merupakan salah satu teknik peubah ganda yang mempunyai tujuan utama untuk menggerombolkan objek-objek berdasarkan kemiripan karakteristik yang dimilikinya. Salah satu metode penggerombolan tak berhirarki yang populer digunakan adalah k-means. Metode k-means dikenal juga sebagai hard clustering yang dapat menggerombolkan objek dengan batasan yang jelas artinya dapat menggerombolkan objek menjadi anggota gerombol tertentu dan tidak menjadi anggota gerombol lainnya. Metode k-means merupakan metode berbasis partisi yang berusaha mempartisi data ke dalam dua atau lebih gerombol menggunakan nilai rata-rata sebagai pusat gerombol. Selain metode k-means juga ada metode k-medoids yang merupakan metode berbasis partisi yang menggunakan nilai medoids sebagai pusat gerombol. Penentuan kemiripan antarobjek menggunakan jarak euclidean memerlukan kebebasan antarpeubah. Penggerombolan yang dilakukan dengan kondisi adanya korelasi antarpeubah maka karakteristik dari gerombol yang terbentuk menjadi tidak optimal. Salah satu pendekatan yang dapat dilakukan untuk mengatasi peubah berkorelasi yaitu menggunakan analisis komponen utama, yang selanjutnya dapat dianalisis menggunakan analisis gerombol. Metode statistika juga bermasalah ketika data besar. Inilah isu yang dibahas pada tesis ini menggunakan contoh data Twitter. Data berukuran besar akan menyebabkan noise juga besar. Jika noise besar akan berpengaruh terhadap hasil penggerombolan. Hal ini akan menyebabkan hasil penggerombolan menjadi tidak optimal. Salah satu cara yang dilakukan untuk mengatasi noise yang besar adalah melakukan prapemrosesan. Penelitian ini bertujuan untuk mengkaji penggerombolan data besar menggunakan metode k-means dan k-medoids. Hasil kajian simulasi menunjukkan bahwa secara umum tidak bisa dibedakan antara metode k-means dan metode k-medoids dari data simulasi yang dibangkitkan. Penggerombolan untuk data Twitter dilakukan berdasarkan pelabelan sentimen yang dilakukan secara manual yang bersifat objektif dengan kriteria pelabelan sebagai berikut, label pertama menunjukkan tweet yang berpihak pada Jokowi, label kedua menunjukkan tweet yang berpihak pada Prabowo dan label ketiga tweet yang menunjukkan opini lainnya. Hasil eksplorasi tweet yang diperoleh menunjukkan bahwa pulau Jawa memiliki frekuensi tweet tertinggi. Perbedaan prapemrosesan penelitian ini dengan penelitian sebelumnya yaitu adanya pembersihan data duplikat serta melakukan normalisasi. Prapemrosesan pada penelitian ini bertujuan untuk mentransformasi data tidak terstruktur menjadi data terstruktur sehingga analisis lebih lanjut dapat dilakukan. Dari hasil yang diperoleh terlihat bahwa ada gerombol yang memihak pada dua label. Hal ini terlihat dari tidak ada persentase yang mayoritas. Sedangkan gerombol yang menghasilkan nilai persentase yang lebih dari 50% pada pelabelan menunjukkan bahwa gerombol tersebut memihak pada label tersebut.
URI: http://repository.ipb.ac.id/handle/123456789/102886
Appears in Collections:MT - Mathematics and Natural Science

Files in This Item:
File SizeFormat 
2020cok.pdf
  Restricted Access
17.36 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.