Analisis CART dan Bagging CART pada Big Data dalam Identifikasi Single Nucleotide Polymorphism (SNP).
Abstract
Big data merupakan istilah untuk data dan informasi yang tumbuh secara signifikan
dari ukuran jumlah, baik pada data yang terstruktur maupun yang tidak terstruktur.
Bioinformatika merupakan disiplin ilmu yang mengalami pertumbuhan data secara
eksponensial dalam bebearpa tahun belakangan ini, yaitu sejak ditemukannya teknologi
Next-Generation Sequencing (NGS). Salah satu kajian yang menarik di bidang
bioinformatika adalah identifikasi polimorfisme nukleotida atau dikenal Single Nucleotide
Polymorphism (SNP). Penelitian ini mengembangkan model dan menganalisis fitur-fitur
terbaik yang dapat digunakan dalam identifikasi SNP. Metode yang digunakan adalah
classification and regression trees (CART) dan bootstrap aggregating (bagging) CART
dengan skema 11, 21, 31, 41, 51, 61, 71, 81 dan 91 pohon klasifikasi. Data yang digunakan
adalah data whole-genome dari kedelai budidaya (Glycine max [L.] Merr.) yang disekuen
menggunakan teknologi NGS, Genome Analyzer II Illumina. Pelatihan model
menggunakan kandidat SNP pada kromosom 11, sementara pengujian menggunakan
kandidat SNP pada kromosom 16. Hasil penelitian menunjukkan bahwa bagging CART
dengan skema 51 pohon mampu membangun model klasifikasi SNP yang paling baik
dibandingkan CART dan skema-skema lainnya berdasarkan metrik Fmeasure yaitu 0.63.
Berdasarkan frekuensi kemunculan yang paling tinggi dari masing-masing skema pada
bagging CART, fitur yang paling berperan dalam identifikasi SNP adalah max qual minor,
freq minor dan mismatch alt.
Collections
- UT - Computer Science [2335]