Optimasi pengelompokan Low Abundance Metagenome Fragments dengan Algoritme Pillar K-Means
View/ Open
Date
2015Author
Kaesmetan, R Yampi
Kusuma, Wisnu Ananta
Buono, Agus
Metadata
Show full item recordAbstract
Pesatnya perkembangan teknologi pada bidang bioinformatika
memungkinkan peneliti untuk mengurutkan basa nukleotida dari suatu organisme
yang diambil langsung dari lingkungan tanpa proses isolasi menjadi lebih mudah.
Proses pengurutan basa nukleotida pada kelas taksonomi merupakan langkah
penting untuk analisis metagenome.
Metagenome adalah proses pengambilan sampel langsung dari lingkungan
tanpa melalui isolasi di laboratorium, variasi urutan basa nukleotida pada spesies
mahluk hidup memiliki kemiripan yang menyebabkan beberapa spesies saling
terkait satu dengan lainnya. Oleh karena itu, untuk mengenali suatu spesies dan
membedakan dengan spesies yang lain diperlukan pengelompokan berdasarkan
kesamaan ciri fiturnya.
Untuk menghindari terjadinya kesalahan perakitan maka metagenome
fragmen perlu dilakukan pengelompokan berdasarkan tingkat taksnomi atau disebut
dengan binning. Binning terbagi atas dua pendekatan yaitu berdasarkan homologi
dan komposisi. Dalam penelitian ini menggunakan pendekatan komposisi dimana
dihitung kemunculan basa nukleotida dari frekuensi k-mers sebagai ekstraksi fitur
dengan 3-mers dan 5-mers yang dijadikan sebagai masukan pada Pillar K-means
algoritme. Pillar K-means algoritme digunakan untuk optimasi K-Means. Tujuan
dari penelitian ini adalah mengoptimalkan inisialisasi centroid untuk
memaksimumkan akumulasi distance matrix sehingga didapatkan cluster terbaik
dalam pengelompokan metagenome fragmen. Berdasarkan hasil kerja dari Pillar KMeans
dilakukan evaluasi dengan Silhoutte Cooefficient dan diperoleh parameter
terbaik 0.2 sampai 0.7. Digunakan pula confusion matrix untuk evaluasi keakuratan
pengelompokan dan diperoleh akurasi untuk 3-mers sebesar 67.54% sedangkan 5-
mers 99.19%. The rapid development of technology in the field of bioinformatics enables
researchers to sequence the nucleotide bases of an organism that is taken directly
from the environment without the isolation process becomes easier. Nucleotide
sequencing process on the class taxonomy is an important step for metagenome
analysis.
Metagenome is the process of sampling directly from the environment
without going through the insulation in the laboratory, variations in the nucleotide
sequences in species living things have similarities that causes some species are
related to one another. Therefore, to identify a species and differentiate with other
species takes its grouping based on common characteristics.
To avoid mistakes, the metagenome fragment assembly needs to be done
grouping based on the level taksnomi or called binning. Binning is divided into two
approaches, based on homology and composition. In this research approach in
which the composition calculated the frequency of occurrence of the nucleotide
bases of k-mers as feature extraction with 3-mers and 5-mers were used as input to
the Pillar K-means algorithm. Pillar K-means algorithm is used to optimize the KMeans.
The aim of this study was to optimize the centroid to maximize the
accumulated distance matrix and get the best cluster in the grouping metagenome
fragments. Based on the work of Pillar K-Means evaluated by Silhoutte
Cooefficient and obtained the best parameter of 0.2 to 0.7. Similarly confusion
matrix used to evaluate the accuracy of the grouping and obtained accuracy for 3-
mers amounted to 67.54% while 99.19% 5-mers.