Penanganan Data Tidak Seimbang Model Random Forest dan XGBoost Berbasis Optimasi Bayesian pada Klasifikasi IPK Program Magister
Abstract
Dalam upaya menghasilkan Sumber Daya Manusia (SDM) unggul, Program
Magister SPs-IPB perlu melakukan proses seleksi yang ketat pada penerimaan
mahasiswa baru. Indeks Prestasi Kumulatif (IPK) sebagai indikator untuk melihat
prestasi akademik mahasiswa, umumnya berkorelasi positif terhadap kualitas SDM
unggul. Salah satu metode yang dapat digunakan dalam mengelompokkan IPK
adalah model klasifikasi machine learning, hasil klasifikasi bisa menjadi acuan
pada proses seleksi mahasiswa. Metode klasifikasi machine learning saat ini telah
dikembangkan pada berbagai bidang, salah satunya bidang pendidikan. Algoritma
Random Forest dan XGBoost merupakan model ensemble learning yang sering
digunakan pada kasus klasifikasi, karena umumnya menghasilkan akurasi yang
tinggi. Algoritma ini mampu beradaptasi dengan data yang besar dan kompleks
seperti pada model nonlinear.
Salah satu tahapan penting dalam membangun model machine learning
adalah mencari hyperparameter yang dapat menghasilkan model optimal,
umumnya dikenal dengan istilah optimasi atau tuning hyperparameter. Hal ini
dikarenakan hyperparameter secara langsung mengontrol proses pelatihan
algoritma, sehingga memiliki efek signifikan pada performa model. Optimasi
Bayesian dapat menjadi alternatif yang lebih efektif dalam pencarian
hyperparameter optimal. Metode ini menggunakan contoh hyperparameter yang
nantinya akan dioptimalisasi, hingga menghasilkan model dengan nilai metrik
paling baik. Optimasi Bayesian mampu memberikan hasil yang lebih baik dan
efisien dibandingkan metode seperti babysitting, grid search dan random search.
Berbagai macam permasalahan data yang dapat ditemui pada kasus klasifikasi,
salah satunya adalah ketidakseimbangan data. Kondisi ini terjadi ketika data
memiliki sebaran amatan antar kelas yang berbeda jauh. Pada kasus data tidak
seimbang, umumnya kelas mayoritas menghasilkan prediksi yang bias. Model akan
fokus mempelajari kategori dengan amatan terbanyak, sehingga kelas minoritas
sering kali diprediksi sebagai kelas mayoritas. Penanganan data tidak seimbang
yang terbukti mampu meningkatkan prediksi kelas minoritas adalah
membangkitkan amatan sintetis. Metode yang dapat digunakan seperti SMOTE,
SMOTE for Nominal Continuous (SMOTE-NC) dan ADASYN, tiga metode ini
menghasilkan data sintetis yang lebih bervariasi dibandingkan random
oversampling.
Berdasarkan permasalahan yang telah dipaparkan, penelitian ini bertujuan
untuk mengklasifikasikan IPK mahasiswa program magister berdasarkan kategori
unggul (?????? = 3,5) dan non unggul (?????? < 3,5). Algoritma yang digunakan
adalah Random Forest dan XGBoost dengan optimasi Bayesian dan random search.
Pada penanganan data tidak seimbang, digunakan tiga perbandingan metode yaitu
SMOTE, SMOTE-NC dan ADASYN. Data yang digunakan terdiri atas empat
angkatan (2020-2023) dengan jumlah amatan 4677 mahasiswa. Model dibangun
berdasarkan data tahun berbeda, serta diaplikasikan pada data tahun selanjutnya
untuk melihat relevansi hasil ketika diaplikasikan pada data baru.
Hasil yang diperoleh menunjukkan tiga metode penanganan data tidak
seimbang mampu meningkatkan nilai sensitivity model. Model dengan penanganan
data tidak seimbang memiliki performa yang lebih baik dalam mengklasifikasikan
kelas minoritas (IPK non unggul). Model terbaik diperoleh dari penanganan
SMOTE-NC menggunakan optimasi Bayesian yang terbukti lebih efisien secara
waktu dibandingkan random search. Peubah yang paling berpengaruh pada
perolehan IPK mahasiswa adalah X8 (Status PT Asal), X2 (IPK S1), X6 (Asal
Perguruan Tinggi), X1(Usia) dan X11 (Program Studi). Peubah X4 (Gender), X9
(Jalur Masuk) dan X5 (Status Pernikahan) cenderung tidak berpengaruh
berdasarkan model terbaik. Metrik hasil klasifikasi data tahun selanjutnya relatif
sama, sehingga peubah maupun model klasifikasi yang digunakan masih relevan
diaplikasikan pada proses seleksi mahasiswa. To produce excellent human resources, the IPB University Graduate School
Master's Program must carry out a strict selection process for accepting new
students. The Grade Point Average (GPA), as an indicator of student academic
achievement, generally correlates positively with the quality of excellent human
resources. One method that can be used to classify GPA is a machine learning
classification model, the classification results can be used as a reference in the
student selection process. Machine learning classification methods have currently
been developed in various fields, one of which is education. The Random Forest
and XGBoost algorithms are ensemble learning models often used in classification
cases because they generally produce high accuracy. This algorithm can adapt to
large and complex data, such as nonlinear models.
One of the critical stages in developing a machine learning model is the search
for hyperparameters that can produce an optimal model, a process known as
optimization or hyperparameter tuning. The choice of hyperparameters
significantly influences the model's performance. In this context, Bayesian
optimization emerges as a more efficient alternative for finding optimal
hyperparameters. This method utilizes example hyperparameters, which are then
optimized to produce a model with the best metric values. Compared to traditional
methods like babysitting, grid search, and random search, Bayesian optimization
consistently delivers superior and more efficient results.
Data problems can be encountered in classification cases, such as data
imbalance. This condition occurs when the data has a very different distribution of
observations between classes. In the case of imbalanced data, the majority class
generally produces biased predictions. The model will study the categories with the
most observations so that the minority class is often predicted as the majority class.
Handling imbalanced data that is proven to be able to improve minority class
predictions is generating synthetic observations. Methods that can be used include
SMOTE, SMOTE for Nominal Continuous (SMOTE-NC) and ADASYN; these
methods produce synthetic data that is more varied than random oversampling.