Optimasi Data Tidak Seimbang untuk Data Interakasi Senyawa dan Protein.
View/ Open
Date
2020Author
Ramadhanti, Nabila Sekar
Kusuma, Wisnu Ananta
Metadata
Show full item recordAbstract
Penemuan obat merupakan proses awal untuk mengembangkan suatu pengobatan untuk mencegah atau menyembuhkan penyakit. Setelah penemuan obat diperlukan juga pengembangan dan pendaftaran obat baru yang membutuhkan biaya sekitar 1.5 juta dollar dan waktu 10 – 17 tahun (Roder dan Thomson 2015). Biaya dan waktu yang mahal ini membuat proses penemuan obat umumnya hanya bisa dilakukan dengan dukungan industri farmasi besar. Salah satu upaya yang dapat dilakukan untuk mengatasi hal tersebut adalah dengan drug repositioning. Proses ini dilakukan untuk menemukan manfaat khasiat baru dari obat yang sudah disetujui oleh FDA atau obat lain yang sudah terdaftar. Proses ini tidak perlu melalui tahap pendaftaran obat baru serta memungkinkan akademisi, pemerintah, atau pihak lain untuk ikut berpartisipasi karena biaya dan waktu yang lebih terjangkau (Chong dan Sullivan 2007). Selain itu mendapatkan obat baru dari proses drug repositioning ini mempermudah pasien untuk mendapat akses terhadap obat tersebut (Pessetto 2013).
Data yang digunakan pada proses drug repositioning merupakan data interaksi drug-target. Data ini terdiri atas protein target dan sejumlah obat yang sudah pernah ditemukan yang menarget protein tersebut. Pada banyak penelitian, obat direpresentasikan dengan struktur senyawa, sedangkan target merupakan protein yang memengaruhi penyakit tertentu dengan fiturnya masing-masing. Data interaksi ini memiliki ketidak-seimbangan data. Data tidak seimbang merupakan suatu kondisi ketika salah satu kelas data memiliki jumlah anggota yang jauh lebih banyak atau sedikit. Kondisi ini menimbulkan masalah saat melakukan proses klasifikasi karena data yang diklasifikasi cenderung mengarah ke satu kelas yang memiliki jumlah sampel lebih banyak (mayoritas). Hal ini menjadi sangat berpengaruh pada hasil prediksi khasiat atau manfaat baru pada proses drug repositioning disebabkan adanya bias. Pada penelitian ini diimplementasikan metode yang menggabungkan Biased Support Vector Machine (BSVM), oversampling, undersampling dengan Ensemble Support Vector Machine (SVM). Metode ini sudah diuji pada data interaksi drug-target Nuclear Receptor, GPCR dan Ion Channel, yang merupakan gold standard dataset, dengan rasio ketidakseimbangan masing-masing sebesar 14.6%, 32.36% dan 28.2%. Pengujian dengan menggunakan dataset Nuclear Receptor, GPCR dan Ion Channel secara berturut turut menghasilkan AUC sebesar 63.4%, 71.4%, 61.3% dan f1 sebesar 54%, 60.7% dan 39%. Nilai dari metode yang digunakan masih terbilang cukup baik, walaupun nilai akurasi lebih kecil dari metode SVM tanpa perlakuan apapun, nilai tersebut bias karena nilai AUC dan f1 ternyata lebih kecil. Hal ini membuktikan bahwa metode yang diusulkan dapat menurunkan tingkat bias pada data tidak seimbang yang diuji dan meningkatkan nilai AUC dan f1 sekitar 5%-20%.