Perbandingan Metode Regresi Multilevel dan Beta Generalized Linear Mixed Models pada Data Longitudinal
Date
2024Author
Meilania, Gusti Tasya
Syafitri, Utami Dyah
Sumertajaya, I Made
Metadata
Show full item recordAbstract
Data longitudinal adalah data yang dikumpulkan melalui pengukuran berulang dari individu yang sama selama periode waktu tertentu. Data longitudinal dengan struktur bersarang menunjukkan bahwa pengukuran yang dilakukan pada level yang lebih rendah berada dalam unit yang lebih besar. Hal ini berarti individu yang berada dalam kelompok yang sama cenderung memiliki karakteristik yang serupa. Model regresi multilevel merupakan salah satu bagian dari Linear Mixed Models (LMM). Model ini mempertimbangkan adanya struktur data bersarang dengan beberapa peubah yang menunjukkan variasi antar kelompok, tapi tidak bervariasi antara pengamatan dalam kelompok yang sama. Generalized Linear Models (GLM) adalah perluasan dari regresi linier yang dapat menangani peubah respon dengan berbagai jenis distribusi tidak normal dari keluarga distribusi eksponensial dengan menentukan suatu fungsi hubung. Penggabungan antara LMM dan GLM akan membentuk metode Generalized Linear Mixed Models (GLMM). Metode ini memungkinkan untuk memodelkan data longitudinal dengan mempertimbangkan variasi antar kelompok atau unit pengamatan pada data yang tidak mengikuti distribusi normal.
Indeks Prestasi Kumulatif (IPK) merupakan data dengan desain pengukuran berulang karena IPK diamati selama beberapa semester. Data IPK seringkali menunjukkan distribusi dengan ekor yang memanjang ke arah nilai IPK rendah dan puncak di dekat nilai IPK yang tinggi. Hal ini mengakibatkan distribusi data IPK menjadi tidak mengikuti distribusi normal. Bentuk distribusi ini menyerupai distribusi beta, yang dikenal dengan karakteristiknya berupa puncak yang lebih tinggi pada salah satu sisi dan ekor yang menjulur ke sisi lainnya. Meskipun distribusi data IPK berada pada interval yang berbeda, pola distribusi yang tampak menyerupai bentuk sebaran beta memberikan indikasi bahwa distribusi data tersebut dapat dipahami melalui model distribusi yang serupa. Hal ini dapat dilakukan dengan transformasi skala pada data IPK menjadi interval [0,1].
Pada penelitian ini dilakukan kajian terhadap kinerja metode regresi multilevel dan Beta GLMM dalam memodelkan data longitudinal berdistribusi Beta menggunakan data simulasi. Data simulasi dibangkitkan dari beberapa kombinasi skenario yang dibangun berdasarkan karakteristik data empiris, yaitu skenario jumlah individu (30,50,100), jumlah pengukuran berulang (4,8,12), dan perbedaan parameter komponen acak (s_0^2=0.01 ,s_0^2=1.0). Total kombinasi skenario pada tahap simulasi yang dibangkitkan adalah sebanyak 18 kombinasi dengan pengulangan sebanyak 100 kali untuk setiap kombinasi skenario.
Ukuran kebaikan model yang digunakan untuk mengevaluasi kinerja metode analisis regresi multilevel dan Beta-GLMM adalah Akaike Information Criterion (AIC), Bayesian Information Criterion (BIC), dan pseudo R^2. Semakin kecil nilai AIC dan BIC, dan semakin tinggi nilai pseudo R^2 yang diperoleh, maka model dikatakan semakin cocok digunakan pada data. Kedua metode akan kembali diterapkan untuk menganalisis data empiris berupa data capaian IPK mahasiswa untuk membuktikan hasil yang diperoleh pada kajian simulasi. Model dari metode dengan kinerja terbaik akan digunakan untuk mengidentifikasi faktor-faktor yang mempengaruhi capaian IPK mahasiswa.
Berdasarkan hasil kajian simulasi, metode Beta GLMM lebih unggul daripada regresi multilevel dalam berbagai kondisi yang diuji karena memiliki rata-rata AIC dan BIC yang jauh lebih rendah disertai rata-rata pseudo R^2 yang lebih tinggi. GLMM memiliki fleksibilitas untuk menganalisis data yang mungkin tidak berdistribusi normal dengan menerapkan fungsi hubung yang sesuai. Oleh karena itu, penerapan GLMM pada data dengan indikasi berdistribusi beta (Beta GLMM) menghasilkan AIC yang lebih rendah dibandingkan regresi multilevel. Hal ini menunjukkan bahwa Beta GLMM jauh lebih baik dalam menangkap struktur dan distribusi data longitudinal yang asimetris. Hasil kajian simulasi ini sejalan dengan hasil kajian data empiris, sehingga model yang terbentuk melalui analisis Beta GLMM merupakan model terbaik dalam penelitian ini.
Adapun faktor-faktor yang mempengaruhi capaian IPK mahasiswa FMIPA program pascasarjana berdasarkan analisis Beta GLMM diantaranya semester mahasiswa, SKS mahasiswa setiap semester, status perkawinan, jalur masuk kuliah, sumber biaya pendidikan (beasiswa), interaksi semester dengan status perkawinan, dan interaksi antara semester dengan jalur masuk kuliah. Berdasarkan analisis yang dilakukan juga diketahui bahwa proporsi keragaman IPK yang dapat dijelaskan oleh mahasiswa tanpa dipengaruhi oleh faktor lainnya adalah sebesar 83.7%. Longitudinal data refers to data collected through repeated measurements of the same individual over a certain period of time. Longitudinal data with a nested structure indicates that measurements taken at a lower level are within larger units. This means that individuals within the same group tend to have similar characteristics. Multilevel regression models are a part of Linear Mixed Models (LMM). This model accounts for the nested data structure with some variables showing variation between groups, but no variation within the same group. Generalized Linear Models (GLM) are an extension of linear regression that can handle response variables with various types of non-normal distributions from the exponential family of distributions by specifying a link function. The combination of LMM and GLM forms the Generalized Linear Mixed Models (GLMM). This method allows for modelling longitudinal data while accounting for variation between groups or units of observation in data that do not follow a normal distribution.
Grade Point Average (GPA) is data with a repeated measurement design, as GPA is observed over several semesters. GPA data often show a distribution with a tail extending toward low GPA values and a peak near high GPA values. This causes the GPA distribution to deviate from a normal distribution. The shape of this distribution resembles a beta distribution, known for its characteristic of having a higher peak on one side and a tail extending toward the other side. Although GPA data are on a different scale, the distribution pattern that appears similar to the beta distribution suggests that the data can be understood through a similar distribution model. This can be achieved by scaling the GPA data to the [0,1] interval.
This study examines the performance of multilevel regression and Beta GLMM methods in modelling longitudinal data with a Beta distribution using simulated data. The simulated data were generated based on various scenarios derived from empirical data characteristics, such as the number of individuals (30, 50, 100), the number of repeated measurements (4, 8, 12), and differences in random component parameters. (s_0^2=0.01,s_0^2=1.0). A total of 18 scenario combinations were generated, with 100 repetitions for each combination.
Model evaluation metrics used to evaluate the performance of multilevel regression and Beta GLMM methods included Akaike Information Criterion (AIC), Bayesian Information Criterion (BIC), and pseudo R^2. The smaller the AIC and BIC values, and the higher the pseudo R^2. The more value is obtained, the better the model fits the data. Both methods were subsequently applied to analyze empirical data on students’ GPA achievements to validate the simulation findings. The model from the technique with the best performance would then be used to identify factors influencing students' GPA achievements.
The simulation results showed that the Beta GLMM model outperformed Multilevel Regression across various tested conditions due to its substantially lower average AIC and BIC values and higher average pseudo-squared values. By employing appropriate link functions, GLMM offers flexibility in analysing data that may not follow a normal distribution. Consequently, applying GLMM to data with an indicated Beta distribution (Beta GLMM) yielded a lower AIC than multilevel regression, demonstrating that Beta GLMM is more effective in capturing the structure and distribution of asymmetric longitudinal data. These simulation findings are consistent with the results of the empirical data analysis, confirming that the model generated through Beta GLMM analysis is the best model in this research.
Factors affecting the GPA achievements of FMIPA postgraduate students, as identified by Beta GLMM analysis, include the semester of study, the number of credits taken per semester, marital status, admission pathway, source of education funding (scholarship), interactions between the semester and marital status, and interactions between the semester and admission pathway. The analysis also revealed that students can explain 83.7% of the variance in GPA without considering other factors.