Seleksi SNP dengan Penyusunan Peringkat SNP dan Algoritme Seleksi Fitur Sekuensial

Setiawan, Dani

Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/91416

Title:	Seleksi SNP dengan Penyusunan Peringkat SNP dan Algoritme Seleksi Fitur Sekuensial
Authors:	Kusuma, Wisnu Ananta Wigena, Aji Hamim Setiawan, Dani
Issue Date:	2017
Publisher:	Bogor Agricultural University (IPB)
Abstract:	Permasalahan seleksi fitur telah menjadi bidang penelitian yang aktif selama beberapa dekade. Salah satu bidang yang banyak menerapkan teknik seleksi fitur adalah bioinformatika. Kajian asosiasi lintas genom (genome wide association study, disingkat GWAS) dalam bioinformatika bertujuan menentukan apakah suatu varian genetik tertentu memiliki asosiasi dengan suatu fenotipe (ciri yang teramati) tertentu. Polimorfisme nukleotida tunggal (single nucleotide polymorphism, disingkat SNP) merupakan markah yang paling banyak digunakan untuk mengidentifikasi polimorfisme genetik karena menghasilkan informasi yang berlimpah tentang keanekaragaman genetik pada tingkat DNA. Pada 1977, Thomas M. Cover dan Jan M. Van Capenhout menunjukkan bahwa hanya exhaustive search (ES) yang menjamin diperolehnya kombinasi fitur atau variabel preditor terbaik, namun membutuhkan sumber daya dan waktu komputasional yang sangat besar. Tesis ini mengusulkan penggunaan metode penyusunan peringkat variabel untuk membuang sebagian besar SNP berperingkat rendah sebelum dilakukan seleksi SNP. Di sini dibandingkan metode-metode penyusunan peringkat SNP dengan pendekatan statistik menggunakan correlation-adjusted marginal correlation score (CAR score) dan influential score (I-score) dan pendekatan machine learning menggunakan algoritme random forest untuk mereduksi ruang pencarian. Pencarian dalam ruang tereduksi dilakukan menggunakan sequential forward floating selection (SFFS) yang membungkus support vector regression (SVR). Di sini dibandingkan juga hasil yang diperoleh saat digunakan dua kernel serba guna—kernel radial basis function (RBF) dan kernel Bessel—dalam permasalahan regresi linear berdimensi tinggi, yaitu, pencarian kombinasi SNP yang paling sesuai yang berhubungan dengan fenotipe tertentu. Tesis ini juga mengusulkan penggunaan dua buah kriteria seleksi, adjusted 𝑅��2 dan mean squared error (MSE), dengan harapan bahwa himpunan SNP yang terseleksi adalah himpunan dengan tingkat kepentingan statistik yang tinggi dan daya prediktif yang kuat. Pengujian dilakukan menggunakan dua buah fenotipe simulasi dengan dan tanpa interaksi epistatik seperti yang digunakan oleh De Oliveira et al. (2014) dan Kusuma et al. (2016). Hasil pengujian menunjukkan bahwa irisan dua buah himpunan SNP hasil seleksi menggunakan kedua kriteria seleksi mampu mengurangi, atau bahkan meniadakan, false positive. Selain itu, dengan dibuangnya sebagian besar SNP berperingkat rendah sebelum dilakukan seleksi SNP terbukti mampu meningkatkan akurasi hasil seleksi. Untuk kedua fenotipe simulasi tersebut, metode yang diusulkan memberikan hasil seleksi paling akurat dibandingkan kedua metode sebelumnya. Metode seleksi SNP yang diusulkan kemudian diterapkan pada data real di mana nilai-nilai yang hilang diimputasi menggunakan metode KNNcatImpute untuk variabel kategorikal.
URI:	http://repository.ipb.ac.id/handle/123456789/91416
Appears in Collections:	MT - Mathematics and Natural Science

Files in This Item:

File	Size	Format
2017dse.pdf Restricted Access	42.77 MB	Adobe PDF	View/Open

Show full item record Recommend this item

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets