Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/100790
Title: Klasifikasi Fragmen Metagenom dengan Deep Learning dan Frekuensi Kemunculan Spaced K-Mers Sebagai Ekstraksi Fitur
Authors: Arkeman, Yandra
Kusuma, Ananta Wisnu
Choiriyati, Nur
Issue Date: 2019
Publisher: IPB University
Abstract: Metagenomika adalah studi yang mempelajari informasi genetik organisme-organisme yang sampelnya diambil langsung dari lingkungan, seperti dari tanah, air, ataupun dari perut manusia. Sampel metagenom yang diambil dari suatu lingkungan menghasilkan fragmen yang mengandung berbagai macam mikroorganisme sehingga perlu dilakukan pengelompokkan (binning) untuk mengetahui keragaman organisme dalam lingkungan mikroba tersebut. Proses binning dapat dilakukan dengan menghitung frekuensi kemunculan k-mers dari suatu sekuens metagenom. Kombinasi pola kemunculan k pasangan basa utama (Adenin, Cystosine, Guanin dan Thymine) adalah fitur yang digunakan sebagai masukan untuk pembelajaran dengan contoh atau biasa disebut sebagai klasifikasi (supervised learning). Ekstraksi fitur spaced k-mers dilakukan dengan membandingkan fragmen metagenom dengan substring berukuran k atau disebut k-mers namun membolehkan kondisi inexact matching. Kondisi inexact matching membolehkan adanya satu atau beberapa bagian yang tidak match dalam hal ini disebut sebagai don’t care position. Deep Learning muncul kembali sebagai paradigma baru dalam machine learning. Beberapa arsitektur Deep Learning memberikan solusi terbaik untuk banyak masalah dalam pengenalan pola seperti Convolutional Neural Network (CNN) untuk pengenalan citra, Recurrent Neural Network untuk pengenalan suara dan pemrosesan bahasa alami. Selain pengenalan citra, CNN juga dapat diterapkan sebagai classifier untuk data metagenom. Beberapa penelitian menunjukkan arsitektur CNN memberikan akurasi yang lebih baik dibandingkan arsitertur Deep Learning lainnya. Deep Neural Network (DNN) adalah simple neural network yang mempunyai banyak hidden layer dengan sekumpulan neuron dalam tiap hidden layer-nya. Tidak ada ukuran pasti untuk menentukan jumlah hidden layer dan jumlah hidden neuron dalam membentuk arsitektur neural network. Untuk itu diperlukan percobaan trial and error agar mendapatkan arsitektur yang paling optimal untuk digunakan sebagai classifier dalam machine learning. Selain itu, tidak seperti CNN, DNN tidak membangkitkan fitur dalam setiap hidden layer seperti CNN sehingga waktu komputasi DNN lebih cepat dibandingkan CNN. Penelitian ini bertujuan untuk membandingkan kinerja dua arsitektur Deep Learning yaitu DNN dan CNN untuk klasifikasi data metagenom. Kinerja classifier diukur dengan menghitung lama waktu pelatihan serta akurasi yang dihasilkan tiap model classifier dimana 1 adalah kondisi match dan 0 adalah don’t care position. Spaced k-mers dengan pola 111 1111 10001 digunakan sebagai ekstraksi fitur metagenom yang hasil fitur tersebut menjadi input untuk tiap model classifier. Hasil penelitian menunjukkan bahwa klasifikasi dengan menggunakan DNN memberikan akurasi sebesar 90.92% dan CNN classifier menghasilkan akurasi sebesar 88.89% pada taksonomi tingkat genus.
URI: http://repository.ipb.ac.id/handle/123456789/100790
Appears in Collections:MT - Mathematics and Natural Science

Files in This Item:
File SizeFormat 
2019nch.pdf
  Restricted Access
14.18 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.