Deteksi Penipuan Kartu Kredit Pada Data Tidak Seimbang Menggunakan Model XGBoost-DNN untuk Sistem Real-time
Date
2025Author
Rahmadhani, Annisa Nur
Hasibuan, Lailan Sahrina
Mushthofa
Metadata
Show full item recordAbstract
Lonjakan transaksi digital meningkatkan risiko penipuan kartu kredit yang tersembunyi dalam data sangat tidak seimbang, menyulitkan deteksi kasus penipuan yang jarang terjadi. Penelitian ini bertujuan untuk mengembangkan sistem deteksi penipuan kartu kredit yang efektif pada data tidak seimbang menggunakan model XGBoost-Deep Neural Network (DNN) untuk sistem real-time. XGBoost digunakan untuk seleksi fitur dan reduksi kompleksitas, sementara DNN menangkap pola kompleks dalam data. Berbagai teknik resampling diterapkan dan dibandingkan performanya menggunakan metrik seperti recall, precision, F-score, AUC-PR, waktu komputasi, dan latensi. Hasil menunjukkan dua model unggulan: Model 2 (Random Oversampling dengan arsitektur DNN dua hidden layer) dengan F2-score tertinggi 0,860 pada threshold 0,5, dan Model 7' (SMOTE-Random Undersampling dengan arsitektur DNN tiga hidden layer) dengan recall tertinggi 0,908 pada threshold 0,1. Model 2 cocok untuk pendekatan seimbang, sedangkan Model 7' ideal untuk meminimalkan kerugian akibat penipuan. Seluruh model terbaik menunjukkan latensi < 1 m s per transaksi, memenuhi syarat sistem real-time. Temuan ini memberikan panduan strategis bagi bank dalam memilih model sesuai prioritas dan toleransi risikonya. The surge in digital transactions has heightened the risk of credit card fraud, which is often hidden in highly imbalanced data, making the detection of rare fraudulent cases challenging. This study aims to develop an effective real time credit card fraud detection system for imbalanced data using an XGBoost-Deep Neural Network (DNN) model. XGBoost is utilized for feature selection and complexity reduction, while the DNN is employed to capture complex patterns within the data. Various resampling techniques are applied and their performances are compared using metrics such as recall, precision, F-score, AUC-PR, computational time, and latency. The results reveal two standout models: Model 2 (Random Oversampling with a two-hidden-layers DNN architecture) achieved the highest F2-score of 0,860 at a threshold of 0,5, and Model 7' (SMOTE-Random Undersampling with a three-hidden-layers DNN architecture) achieved the highest recall of 0,908 at a threshold of 0,1. Model 2 is suitable for a balanced approach, whereas Model 7' is ideal for minimizing financial losses from fraud. All top-performing models demonstrated a latency of < 1 m s per transaction, meeting the requirements of a real-time system. These findings provide strategic guidance for banks in selecting a model that aligns with their specific priorities and risk tolerance.
