Analisis Perbandingan Teknik Ensemble Secara Boosting (XGBoost) dan Bagging (Random Forest) Pada Klasifikasi Kategori Sambatan Sekuens DNA
View/ Open
Date
2019Author
Syahrani, Iswaya Maalik
Kusuma, Wisnu Ananta
Wahjuni, Sri
Metadata
Show full item recordAbstract
Perkembangan teknologi machine learning turut berkontribusi terhadap perkembangan riset-riset di bidang biogenetika. Machine learning membantu analisa data menjadi lebih cepat, akurat dan murah. Terminologi bioinformatika dilekatkan pada penerapan machine learning dalam mengolah data biogenetika. Data biogenetika berupa urutan nukleotida atau DNA merupakan data yang sering dianalisa berupa bentuk polanya salah satunya sebagai pengidentifikasi jenis protein. Penelitian ini menggunakan dataset Splice-junction yang merupakan urutan nukleotida (DNA) di mana di dalamnya terdapat gen yang dianggap tidak berguna dan akan ditiadakan selama proses pembentukan protein pada organisme tingkat tinggi. Exon merupakan bagian dari urutan DNA yang tetap dipertahankan setelah proses splicing dan intron merupakan bagian DNA yang disambung keluar. Dataset berisi data yang mencirikan kategori berdasarkan urutan apakah berupa batas ekson terhadap intron (EI) ataukah berupa batas intron terhadap ekson (IE). Terdapat kategori lain yang bukan merupakan keduanya yaitu neither(N). Data ekstraksi ciri sekuens DNA berupa frekuensi k-mers juga dianalisa sebagai perbandingan.
Machine learning yang tangguh dibutuhkan untuk memenuhi kebutuhan pengenalan pola data biogenetika. Metode yang umum digunakan adalah decision-tree(DT). Pemanfaatan lebih dari satu DT secara ensemble dinilai mampu meningkatkan tingkat akurasi. Teknik ensemble dapat berupa boosting dan bagging. Boosting dilakukan secara sekuensial dengan membangun beberapa DT dengan pembelajar lemah secara gradient dengan memanfaatkan data residu untuk menumbuhkan DT berikutnya. Bagging dilakukan dengan membangun banyak DT dari data sampel secara acak untuk kemudian dilakukan vote terhadap DT dengan performa terbaik. Masing-masing metode menghasilkan model klasifikasi untuk kemudian diujikan pada data uji splice junction. Optimasi juga dilakukan terhadap kedua metode dengan melakukan tuning hyperparameter yang dicari menggunakan metode grid search dengan pola tertentu.
Tingkat akurasi yang dicapai dari kedua metode tersebut di atas 93%, namun masing-masing metode memiliki kelebihan dan kekurangan. Dalam penelitian ini implementasi metode boosting menggunakan XGBoost didapatkan akurasi dan waktu proses yang lebih baik dibandingkan metode bagging menggunakan Random Forest. Penentuan hyperparameter lebih sulit dilakukan pada XGBoost yang memiliki banyak parameter penentu.