Prediksi Interaksi pada Jejaring Bipartite Senyawa dan Protein pada Data yang Tidak Seimbang
View/ Open
Date
2019-01-31Author
Purnajaya, Akhmad Rezki
Kusuma, Wisnu Ananta
Hardhienata, Medria Kusuma Dewi
Metadata
Show full item recordAbstract
Identifikasi interaksi senyawa-protein merupakan salah satu komponen penting pada Drug-Target Analysis dalam pengembangan obat-obatan. BleakleyYamanishi menemukan algoritme Bipartite Local Model (BLM) yang memiliki hasil performa prediksi interaksi senyawa-protein dengan sangat baik. Selanjutnya, Kurnia menerapkan algoritme Bipartite Local Model - Neighbor Interaction-profile Inferring (BLM-NII) untuk memprediksi interaksi senyawa-protein pada Indonesia
jamu herbs (Ijah) analytics. Penerapan konsep Network–based Interaction–profile Infering (NII) memungkinkan BLM untuk melakukan prediksi pada kondisi senyawa atau protein yang tidak memiliki data interaksi. Hasil prediksi interaksi senyawa-protein pada penelitian Bleakley-Yamanishi dan Kurnia ditemukan bahwa jumlah data yang tidak berinteraksi jauh lebih banyak daripada jumlah data senyawa-protein yang memiliki interaksi (imbalanced class). Permasalahan tersebut menyebabkan prediksi interaksi senyawa-protein yang dihasilkan bias menuju kelas mayoritas (tidak berinteraksi). Selain itu tidak banyak penelitian tentang prediksi interaksi senyawa-protein yang membandingkan beberapa teknik sampling data untuk menangani permasalahan imbalanced class.
Oleh karena itu, penelitian ini membandingkan performa prediksi interaksi senyawa-protein dengan beberapa teknik sampling data, yaitu Random Oversampling (ROS), Random Under-sampling (RUS), Combination of Over-undersampling (COUS), Synthetic Minority Oversampling Technique (SMOTE), dan Tomek Link (T-Link). Teknik tersebut diimplementasikan pada jaringan interaksi senyawa-protein yang telah diketahui dengan dataset Nuclear Receptor dan Gprotein-coupled Receptor (GPCR), serta pada jaringan interaksi yang belum diketahui dengan dataset Ijah. Performa prediksi setiap teknik sampling data dievaluasi menggunakan nilai Area Under Curve (AUC) dan kurva Receiver Operating Characteristic (Kurva ROC).
Hasil dari penelitian ini menunjukkan bahwa prediksi interaksi senyawa protein dengan teknik sampling data SMOTE memiliki nilai AUC dan kurva ROC yang paling optimal pada ketiga dataset yang digunakan. Peningkatan nilai AUC pada data imbalanced yaitu sebesar 7.19% pada dataset Nuclear Receptor, 21.37% pada dataset GPCR, dan sebanyak 7.96% pada dataset Ijah.