Penentuan Topik Dokumen Siaran Media Kedutaan Australia Berbasis Penambangan Teks dengan Algoritme K-Means

Hardi, Wishnu

dc.contributor.advisor	Kusuma, Wisnu Ananta
dc.contributor.advisor	Basuki, Sulistyo
dc.contributor.author	Hardi, Wishnu
dc.date.accessioned	2018-10-08T03:22:41Z
dc.date.available	2018-10-08T03:22:41Z
dc.date.issued	2018
dc.identifier.uri	http://repository.ipb.ac.id/handle/123456789/94036
dc.description.abstract	Kedutaan Australia Jakarta adalah salah satu kantor perwakilan negara asing yang secara rutin menerbitkan dan menyimpan dokumen teks dalam bentuk siaran media. Namun demikian, lembaga belum memiliki metode yang efisien untuk melakukan evaluasi dokumen berbasis analisis teks. Penelitian ini menerapkan teknik penambangan teks (text mining) untuk mengeksplorasi pola, hubungan, dan struktur dari kumpulan dokumen yang bertujuan mengungkap kecenderungan topik dari dokumen. Hasil dari penelitian ini diharapkan dapat menjadi model alternatif bagi kegiatan evaluasi terhadap koleksi dokumen yang dimiliki, serta menjadi alat pendukung dalam proses pengambilan keputusan dan perumusan strategi komunikasi di internal lembaga. Penelitian ini menganalisis 839 dokumen siaran media berbahasa Inggris yang diterbitkan oleh Kedutaan Australia Jakarta antara tahun 2006 sampai 2016. Tahapan penelitian diawali dengan melakukan pengumpulan dokumen yang bersumber dari website lembaga. Rangkaian praproses data dilakukan dengan menormalisasi teks agar diperoleh hasil yang lebih konsisten. Data teks hasil praproses kemudian ditransformasi ke dalam data numerik dengan melakukan pembobotan istilah TFIDF (Term Frequency/Inverse Document Frequency) dengan hasil sebuah matriks istilah. Matriks tersebut kemudian dijadikan sebagai input data untuk algoritme klasterisasi dengan metode K-Means. Proses klasterisasi diawali dengan membangkitkan sentroid awal sebagai pusat kelompok secara acak sebanyak jumlah klaster yang ingin dibentuk, kemudian mengukur jarak setiap istilah terhadap sentroid dengan menggunakan formula cosine similarity. Selanjutnya, secara iteratif memperbaiki partisi klaster hingga tidak terjadi perubahan yang signifikan. Koefisien Silhouette juga digunakan sebagai dasar untuk menentukan jumlah klaster optimal. Hasil penelitian menunjukan bahwa proses ekstraksi istilah dari 839 dokumen yang dianalisis menghasilkan 57 istilah yang dikelompokan ke dalam 3 klaster. Istilah-istilah tersebut diperoleh dengan menetapkan nilai batas (threshold) sebesar 0,79 yang menghapus istilah dengan minimal frekuensi kemunculan sebesar 21 persen. Jumlah klaster optimal ditentukan sebanyak k=3 dengan nilai Silhouette sebesar 0.1. Berdasarkan intepretasi data oleh pakar terhadap kelompok istilah pada klaster k=3, penekanan topik dokumen siaran media Kedutaan Australia Jakarta tahun 2006 sampai 2016 adalah “hubungan antarmasyarakat”, “pembangunan kualitas hidup manusia”, dan “kerja sama ekonomi”.	id
dc.language.iso	id	id
dc.publisher	Bogor Agricultural University (IPB)	id
dc.subject.ddc	Library	id
dc.subject.ddc	Research Libraries	id
dc.subject.ddc	2017	id
dc.subject.ddc	Indonesia	id
dc.title	Penentuan Topik Dokumen Siaran Media Kedutaan Australia Berbasis Penambangan Teks dengan Algoritme K-Means	id
dc.type	Thesis	id
dc.subject.keyword	Penambangan teks	id
dc.subject.keyword	klasterisasi	id
dc.subject.keyword	algoritme K-Means	id

Files in this item

Name:: 2018wha.pdf
Size:: 17.89Mb
Format:: PDF
Description:: Fulltext

View/Open

This item appears in the following Collection(s)

MT - Professional Master [919]

Show simple item record