Kajian Extremely Randomized Survival Trees dan Random Survival Forests pada Masa Studi Penerima Beasiswa BAZNAS
Date
2025Author
Zaenal, Mohamad Solehudin
Fitrianto, Anwar
Wijayanto, Hari
Metadata
Show full item recordAbstract
Analisis survival adalah cabang statistika yang digunakan untuk menganalisis waktu hingga suatu peristiwa terjadi. Peristiwa yang dimaksud seperti waktu hingga suatu mesin rusak untuk yang pertama kali, waktu kesembuhan pasien dari suatu penyakit, waktu studi yang dibutuhkan hingga mahasiswa lulus, dan peristiwa lainnya. Analisis survival mampu melibatkan data tidak lengkap atau data tersensor. Kemampuan ini menjadikan analisis survival memiliki keunggulan dibandingkan dengan analisis statistika pada umumnya, seperti analisis regresi dan klasifikasi yang mensyaratkan data lengkap. Data termasuk tersensor ketika peristiwa yang diharapkan tidak terjadi dalam periode pengamatan.
Model pembelajaran mesin seperti pohon keputusan telah terbukti efektif dalam menangani kasus regresi dan klasifikasi, sehingga model ini terus dikembangkan untuk meningkatkan performa model yang lebih baik dan waktu komputasi yang lebih cepat. Penelitian tentang model Extremely Randomized Trees (ET) yang dilakukan oleh Geurts (2006) pada kasus klasifikasi dan regresi, menunjukkan bahwa model ET memiliki performa yang lebih baik dibandingkan dengan model Random Forests, Single CART, Tree Bagging (TB), dan Random Subspace (RS). Model ET pada kasus regresi dan klasifikasi berkembang menjadi model Extremely Randomized Survival Trees (EST) pada kasus survival, dan model RF pada kasus regresi dan klasifikasi berkembang menjadi model Random Survival Forests (RSF) pada kasus survival. Selanjutnya, penelitian ini mengeksplorasi performa model Extremely Randomized Survival Trees (EST) dan Random Survival Forests (RSF).
Penelitian dilakukan menggunakan data simulasi dan data empiris. Data simulasi yang digunakan yaitu data survival tersensor kanan yang dibangkitkan melalui proses simulasi, sedangkan data empiris yang digunakan yaitu masa studi penerima beasiswa Badan Amil Zakat Nasional (BAZNAS). Data simulasi dibangkitkan dengan melibatkan kombinasi peubah prediktor numerik dan kategorik, peubah respon, tiga kelompok jenis fungsi hazard (naik, turun, dan konstan), dua kelompok proporsi data tersensor p (20% dan 50%), serta tiga kelompok jumlah sampel n (300, 600, dan 1.200). Pembangkitan data pada peubah prediktor mengikuti distribusi seragam dan binomial, sedangkan peubah waktu survival mengikuti distribusi Weibull. Setiap skenario pembangkitan data simulasi dilakukan pengulangan sebanyak 30 kali, sehingga diperoleh total 540 gugus data simulasi yang berbeda.
Analisis dilakukan pada data survival tersensor kanan. Setiap gugus data dilakukan proses pemodelan menggunakan model EST dan RSF. Gugus data terlebih dahulu dibagi menjadi 80% data latih dan 20% data uji. Data latih digunakan untuk membangun model EST dan RSF, sedangkan data uji digunakan untuk mengevaluasi model. Selanjutnya, dilakukan perbandingan performa model EST dan RSF berdasakan nilai C-index. Model dengan nilai C-index yang lebih besar menunjukkan model memiliki performa yang lebih baik. Khusus pada data empiris, dilakukan uji kesesuaian (goodness of fit) untuk mengetahui apakah data empiris mengikuti suatu distribusi statistik tertentu.
Berdasarkan hasil analisis simulasi pada kelompok fungsi hazard konstan, fungsi hazard naik, dan fungsi hazard turun, menunjukkan bahwa ketika jumlah sampel kecil (n=300) dan sedang (n=600) di semua kelompok proporsi data tersensor, tidak terdapat perbedaan signifikan antara performa model EST dan RSF. Namun, ketika jumlah sampel besar (n=1.200) di semua kelompok proporsi data tersensor, terdapat perbedaan signifikan antara performa model EST dan RSF. Model EST memiliki performa lebih baik dibandingkan model RSF berdasarkan ukuran nilai C-index.
Selain itu, berdasarkan perbandingan waktu komputasi, model EST secara konsisten menunjukkan waktu komputasi yang lebih cepat dibandingkan model RSF. Skenario pada kelompok fungsi hazard konstan menujukkan waktu komputasi rata-rata model EST adalah 1,07 kali lebih cepat dibandingkan model RSF pada kelompok jumlah sampel kecil, 1,3 kali lebih cepat pada kelompok jumlah sampel sedang, dan 1,8 kali lebih cepat pada kelompok jumlah sampel besar. Skenario pada kelompok fungsi hazard naik menunjukkan bahwa waktu komputasi rata-rata model EST adalah 1,1 kali lebih cepat dibandingkan model RSF pada kelompok jumlah sampel kecil, 1,35 kali lebih cepat pada kelompok jumlah sampel sedang, dan 1,73 kali lebih cepat pada kelompok jumlah sampel besar. Adapun skenario pada kelompok fungsi hazard turun menujukkan bahwa waktu komputasi rata-rata model EST adalah 1,08 kali lebih cepat dibandingkan model RSF pada kelompok jumlah sampel kecil, 1,32 kali lebih cepat pada kelompok jumlah sampel sedang, dan 1,74 kali lebih cepat pada kelompok jumlah sampel besar. Faktor jumlah sampel, jenis fungsi hazard, dan metode yang digunakan menjadi faktor berpengaruh terhadap performa model.
Analisis survival pada data empiris digunakan terhadap 960 sampel dengan proporsi data tersensor 72,98%. Peubah prediktor yang digunakan yaitu jenis kelamin, indeks prestasi kumulatif (IPK) saat mendaftar beasiswa, usia saat mendaftar beasiswa, total pendapatan orang tua, tanggungan keluarga, akreditasi kampus, dan akreditasi jurusan. Analisis menggunakan model EST menghasilkan nilai C-index sebesar 0,539, sedangkan menggunakan model RSF menghasilkan nilai C-index sebesar 0,528. Berdasarkan perbandingan nilai C-index, model EST memiliki performa yang lebih baik. Adapun jenis kelamin, usia saat mendaftar beasiswa, akreditasi kampus, dan akreditasi jurusan merupakan peubah penting yang berpengaruh terhadap performa model dalam analisis masa studi penerima beasiswa BAZNAS. Survival analysis is a branch of statistics used to analyze the time until an event occurs. Such events include the time until a machine fails for the first time, the time for a patient to recover from a disease, the time required for a student to graduate, and other similar events. Survival analysis can handle incomplete or censored data, a capability that gives it an advantage over general statistical analysis methods, such as regression and classification, which require complete data. Data is considered censored when the expected event does not occur within the observation period.
Machine learning models, such as decision trees, have proven effective in regression and classification tasks, leading to continuous developments aimed at improving model performance and computational efficiency. Research on Extremely Randomized Trees (ET), conducted by Geurts (2006), demonstrated that the ET model outperforms Random Forests, Single CART, Tree Bagging (TB), and Random Subspace (RS) models. The ET model in regression and classification has evolved into the Extremely Randomized Survival Trees (EST) model for survival analysis, and the Random Forest (RF) model for regression and classification has evolved into the Random Survival Forests (RSF) model for survival analysis. This study explores the performance of the Extremely Randomized Survival Trees (EST) and Random Survival Forests (RSF) models.
The research was conducted using both simulation and empirical data. The simulation data consisted of right-censored survival data generated through simulation processes, while the empirical data involved the study duration of BAZNAS scholarship. The simulation data was generated using a combination of numerical and categorical predictor variables, response variables, three types of hazard functions (increasing, decreasing, and constant), two groups of censored data proportions (20% and 50%), and three sample sizes (300, 600, and 1.200). The predictor variables were generated following uniform and binomial distributions, while the survival time variable followed a Weibull distribution. Each simulation scenario was repeated 30 times, resulting in a total of 540 distinct simulation data clusters.
The Analysis was conducted on right-censored survival data. For each data cluster, modeling was performed using the EST and RSF models. The data was first split into 80% training and 20% testing data sets. The training data was used to build the EST and RSF models, while the testing data was used to evaluate the models. Subsequently, the performance of the EST and RSF models was compared based on the C-index values. The model with a higher C-index value indicates better performance. For the empirical data, a goodness-of-fit test was conducted to determine whether the data follows a specific statistical distribution.
Based on the simulation analysis for the constant hazard function, increasing hazard function, and decreasing hazard function, it was found that for small (n=300) and medium (n=600) sample sizes across all censoring proportions, there was no significant difference in the performance between the EST and RSF models. However, for large sample sizes (n=1,200) across all censoring proportions, there was a significant difference in performance, with the EST model generally showing better performance than the RSF model based on the C-index value.
Additionally, in terms of computational time, the EST model consistently showed faster computational times compared to the RSF model. In scenarios involving the constant hazard function, the average computational time for the EST model was 1,07 times faster than the RSF model in the small sample size group, 1,3 times faster in the medium sample size group, and 1,8 times faster in the large sample size group. In scenarios with the increasing hazard function, the EST model was 1,1 times faster in the small sample size group, 1,35 times faster in the medium sample size group, and 1,73 times faster in the large sample size group. For the decreasing hazard function, the EST model was 1,08 times faster in the small sample size group, 1,32 times faster in the medium sample size group, and 1,74 times faster in the large sample size group. The sample size, type of hazard function, and the method used were influential factors on the model performance.
The survival analysis for the empirical data was conducted on a sample of 960, with 72,98% of the data being censored. The predictor variables used included gender, GPA at the time of scholarship application, age at the time of scholarship acceptance, parental income, family dependents, campus accreditation, and department accreditation. The analysis using the EST model resulted in a C-index value of 0.539, while the RSF model yielded a C-index value of 0.528. Based on the comparison of C-index values, the EST model showed better performance. Furthermore, gender, age at the time of scholarship application, campus accreditation, and department accreditation were found to be important factors influencing the model's performance in analyzing the study duration of BAZNAS scholarship.