Penanganan Data  Tidak Seimbang Model Random Forest dan XGBoost Berbasis Optimasi Bayesian  pada Klasifikasi IPK Program Magister

R, Arifuddin

View/Open

Cover (888.5Kb)

Fulltext (2.280Mb)

Lampiran (460.4Kb)

Date

2024

Author

R, Arifuddin

Syafitri, Utami Dyah

Erfiani

Metadata

Show full item record

Abstract

Dalam upaya menghasilkan Sumber Daya Manusia (SDM) unggul, Program Magister SPs-IPB perlu melakukan proses seleksi yang ketat pada penerimaan mahasiswa baru. Indeks Prestasi Kumulatif (IPK) sebagai indikator untuk melihat prestasi akademik mahasiswa, umumnya berkorelasi positif terhadap kualitas SDM unggul. Salah satu metode yang dapat digunakan dalam mengelompokkan IPK adalah model klasifikasi machine learning, hasil klasifikasi bisa menjadi acuan pada proses seleksi mahasiswa. Metode klasifikasi machine learning saat ini telah dikembangkan pada berbagai bidang, salah satunya bidang pendidikan. Algoritma Random Forest dan XGBoost merupakan model ensemble learning yang sering digunakan pada kasus klasifikasi, karena umumnya menghasilkan akurasi yang tinggi. Algoritma ini mampu beradaptasi dengan data yang besar dan kompleks seperti pada model nonlinear. Salah satu tahapan penting dalam membangun model machine learning adalah mencari hyperparameter yang dapat menghasilkan model optimal, umumnya dikenal dengan istilah optimasi atau tuning hyperparameter. Hal ini dikarenakan hyperparameter secara langsung mengontrol proses pelatihan algoritma, sehingga memiliki efek signifikan pada performa model. Optimasi Bayesian dapat menjadi alternatif yang lebih efektif dalam pencarian hyperparameter optimal. Metode ini menggunakan contoh hyperparameter yang nantinya akan dioptimalisasi, hingga menghasilkan model dengan nilai metrik paling baik. Optimasi Bayesian mampu memberikan hasil yang lebih baik dan efisien dibandingkan metode seperti babysitting, grid search dan random search. Berbagai macam permasalahan data yang dapat ditemui pada kasus klasifikasi, salah satunya adalah ketidakseimbangan data. Kondisi ini terjadi ketika data memiliki sebaran amatan antar kelas yang berbeda jauh. Pada kasus data tidak seimbang, umumnya kelas mayoritas menghasilkan prediksi yang bias. Model akan fokus mempelajari kategori dengan amatan terbanyak, sehingga kelas minoritas sering kali diprediksi sebagai kelas mayoritas. Penanganan data tidak seimbang yang terbukti mampu meningkatkan prediksi kelas minoritas adalah membangkitkan amatan sintetis. Metode yang dapat digunakan seperti SMOTE, SMOTE for Nominal Continuous (SMOTE-NC) dan ADASYN, tiga metode ini menghasilkan data sintetis yang lebih bervariasi dibandingkan random oversampling. Berdasarkan permasalahan yang telah dipaparkan, penelitian ini bertujuan untuk mengklasifikasikan IPK mahasiswa program magister berdasarkan kategori unggul (?????? = 3,5) dan non unggul (?????? < 3,5). Algoritma yang digunakan adalah Random Forest dan XGBoost dengan optimasi Bayesian dan random search. Pada penanganan data tidak seimbang, digunakan tiga perbandingan metode yaitu SMOTE, SMOTE-NC dan ADASYN. Data yang digunakan terdiri atas empat angkatan (2020-2023) dengan jumlah amatan 4677 mahasiswa. Model dibangun berdasarkan data tahun berbeda, serta diaplikasikan pada data tahun selanjutnya untuk melihat relevansi hasil ketika diaplikasikan pada data baru. Hasil yang diperoleh menunjukkan tiga metode penanganan data tidak seimbang mampu meningkatkan nilai sensitivity model. Model dengan penanganan data tidak seimbang memiliki performa yang lebih baik dalam mengklasifikasikan kelas minoritas (IPK non unggul). Model terbaik diperoleh dari penanganan SMOTE-NC menggunakan optimasi Bayesian yang terbukti lebih efisien secara waktu dibandingkan random search. Peubah yang paling berpengaruh pada perolehan IPK mahasiswa adalah X8 (Status PT Asal), X2 (IPK S1), X6 (Asal Perguruan Tinggi), X1(Usia) dan X11 (Program Studi). Peubah X4 (Gender), X9 (Jalur Masuk) dan X5 (Status Pernikahan) cenderung tidak berpengaruh berdasarkan model terbaik. Metrik hasil klasifikasi data tahun selanjutnya relatif sama, sehingga peubah maupun model klasifikasi yang digunakan masih relevan diaplikasikan pada proses seleksi mahasiswa.

To produce excellent human resources, the IPB University Graduate School Master's Program must carry out a strict selection process for accepting new students. The Grade Point Average (GPA), as an indicator of student academic achievement, generally correlates positively with the quality of excellent human resources. One method that can be used to classify GPA is a machine learning classification model, the classification results can be used as a reference in the student selection process. Machine learning classification methods have currently been developed in various fields, one of which is education. The Random Forest and XGBoost algorithms are ensemble learning models often used in classification cases because they generally produce high accuracy. This algorithm can adapt to large and complex data, such as nonlinear models. One of the critical stages in developing a machine learning model is the search for hyperparameters that can produce an optimal model, a process known as optimization or hyperparameter tuning. The choice of hyperparameters significantly influences the model's performance. In this context, Bayesian optimization emerges as a more efficient alternative for finding optimal hyperparameters. This method utilizes example hyperparameters, which are then optimized to produce a model with the best metric values. Compared to traditional methods like babysitting, grid search, and random search, Bayesian optimization consistently delivers superior and more efficient results. Data problems can be encountered in classification cases, such as data imbalance. This condition occurs when the data has a very different distribution of observations between classes. In the case of imbalanced data, the majority class generally produces biased predictions. The model will study the categories with the most observations so that the minority class is often predicted as the majority class. Handling imbalanced data that is proven to be able to improve minority class predictions is generating synthetic observations. Methods that can be used include SMOTE, SMOTE for Nominal Continuous (SMOTE-NC) and ADASYN; these methods produce synthetic data that is more varied than random oversampling.

URI

http://repository.ipb.ac.id/handle/123456789/154785

Collections

MT - Mathematics and Natural Science [4166]