Prediksi Interaksi pada Jejaring Bipartite Senyawa dan Protein pada Data yang Tidak Seimbang.
View/ Open
Date
2019Author
Akhmad, Purnajaya Rezki
Kusuma, Ananta Wisnu
Hardhienata, Dewi Kusuma Medria
Metadata
Show full item recordAbstract
Identifikasi interaksi senyawa-protein merupakan salah satu komponen
penting pada Drug-Target Analysis dalam pengembangan obat-obatan. Bleakley-
Yamanishi menemukan algoritme Bipartite Local Model (BLM) yang memiliki
hasil performa prediksi interaksi senyawa-protein dengan sangat baik. Selanjutnya,
Kurnia menerapkan algoritme Bipartite Local Model - Neighbor Interaction-profile
Inferring (BLM-NII) untuk memprediksi interaksi senyawa-protein pada Indonesia
jamu herbs (Ijah) analytics. Penerapan konsep Network–based Interaction–profile
Infering (NII) memungkinkan BLM untuk melakukan prediksi pada kondisi
senyawa atau protein yang tidak memiliki data interaksi. Hasil prediksi interaksi
senyawa-protein pada penelitian Bleakley-Yamanishi dan Kurnia ditemukan bahwa
jumlah data yang tidak berinteraksi jauh lebih banyak daripada jumlah data
senyawa-protein yang memiliki interaksi (imbalanced class). Permasalahan
tersebut menyebabkan prediksi interaksi senyawa-protein yang dihasilkan bias
menuju kelas mayoritas (tidak berinteraksi). Selain itu tidak banyak penelitian
tentang prediksi interaksi senyawa-protein yang membandingkan beberapa teknik
sampling data untuk menangani permasalahan imbalanced class.
Oleh karena itu, penelitian ini membandingkan performa prediksi interaksi
senyawa-protein dengan beberapa teknik sampling data, yaitu Random Oversampling
(ROS), Random Under-sampling (RUS), Combination of Over-undersampling
(COUS), Synthetic Minority Oversampling Technique (SMOTE), dan
Tomek Link (T-Link). Teknik tersebut diimplementasikan pada jaringan interaksi
senyawa-protein yang telah diketahui dengan dataset Nuclear Receptor dan Gprotein-
coupled Receptor (GPCR), serta pada jaringan interaksi yang belum
diketahui dengan dataset Ijah. Performa prediksi setiap teknik sampling data
dievaluasi menggunakan nilai Area Under Curve (AUC) dan kurva Receiver
Operating Characteristic (Kurva ROC).
Hasil dari penelitian ini menunjukkan bahwa prediksi interaksi senyawa
protein dengan teknik sampling data SMOTE memiliki nilai AUC dan kurva ROC
yang paling optimal pada ketiga dataset yang digunakan. Peningkatan nilai AUC
pada data imbalanced yaitu sebesar 7.19% pada dataset Nuclear Receptor, 21.37%
pada dataset GPCR, dan sebanyak 7.96% pada dataset Ijah.