Optimasi pengelompokan Low Abundance Metagenome Fragments dengan Algoritme Pillar K-Means

Kaesmetan, R Yampi

View/Open

Fullteks (16.17Mb)

Date

2015

Author

Kaesmetan, R Yampi

Kusuma, Wisnu Ananta

Buono, Agus

Metadata

Show full item record

Abstract

Pesatnya perkembangan teknologi pada bidang bioinformatika memungkinkan peneliti untuk mengurutkan basa nukleotida dari suatu organisme yang diambil langsung dari lingkungan tanpa proses isolasi menjadi lebih mudah. Proses pengurutan basa nukleotida pada kelas taksonomi merupakan langkah penting untuk analisis metagenome. Metagenome adalah proses pengambilan sampel langsung dari lingkungan tanpa melalui isolasi di laboratorium, variasi urutan basa nukleotida pada spesies mahluk hidup memiliki kemiripan yang menyebabkan beberapa spesies saling terkait satu dengan lainnya. Oleh karena itu, untuk mengenali suatu spesies dan membedakan dengan spesies yang lain diperlukan pengelompokan berdasarkan kesamaan ciri fiturnya. Untuk menghindari terjadinya kesalahan perakitan maka metagenome fragmen perlu dilakukan pengelompokan berdasarkan tingkat taksnomi atau disebut dengan binning. Binning terbagi atas dua pendekatan yaitu berdasarkan homologi dan komposisi. Dalam penelitian ini menggunakan pendekatan komposisi dimana dihitung kemunculan basa nukleotida dari frekuensi k-mers sebagai ekstraksi fitur dengan 3-mers dan 5-mers yang dijadikan sebagai masukan pada Pillar K-means algoritme. Pillar K-means algoritme digunakan untuk optimasi K-Means. Tujuan dari penelitian ini adalah mengoptimalkan inisialisasi centroid untuk memaksimumkan akumulasi distance matrix sehingga didapatkan cluster terbaik dalam pengelompokan metagenome fragmen. Berdasarkan hasil kerja dari Pillar KMeans dilakukan evaluasi dengan Silhoutte Cooefficient dan diperoleh parameter terbaik 0.2 sampai 0.7. Digunakan pula confusion matrix untuk evaluasi keakuratan pengelompokan dan diperoleh akurasi untuk 3-mers sebesar 67.54% sedangkan 5- mers 99.19%.

The rapid development of technology in the field of bioinformatics enables researchers to sequence the nucleotide bases of an organism that is taken directly from the environment without the isolation process becomes easier. Nucleotide sequencing process on the class taxonomy is an important step for metagenome analysis. Metagenome is the process of sampling directly from the environment without going through the insulation in the laboratory, variations in the nucleotide sequences in species living things have similarities that causes some species are related to one another. Therefore, to identify a species and differentiate with other species takes its grouping based on common characteristics. To avoid mistakes, the metagenome fragment assembly needs to be done grouping based on the level taksnomi or called binning. Binning is divided into two approaches, based on homology and composition. In this research approach in which the composition calculated the frequency of occurrence of the nucleotide bases of k-mers as feature extraction with 3-mers and 5-mers were used as input to the Pillar K-means algorithm. Pillar K-means algorithm is used to optimize the KMeans. The aim of this study was to optimize the centroid to maximize the accumulated distance matrix and get the best cluster in the grouping metagenome fragments. Based on the work of Pillar K-Means evaluated by Silhoutte Cooefficient and obtained the best parameter of 0.2 to 0.7. Similarly confusion matrix used to evaluate the accuracy of the grouping and obtained accuracy for 3- mers amounted to 67.54% while 99.19% 5-mers.

URI

http://repository.ipb.ac.id/handle/123456789/120613

Collections

MT - Mathematics and Natural Science [4163]