Kajian Perbandingan Generalized Linear Mixed  Model Dan Mixed-Effects Random Forest Untuk  Analisis Data Yang Mengandung Pencilan

Arianti, Reza

View/Open

Cover (612.1Kb)

Fulltext (1.675Mb)

Lampiran (494.7Kb)

Date

2026

Author

Arianti, Reza

Notodiputro, Khairil Anwar

Angraini, Yenni

Metadata

Show full item record

Abstract

Penelitian ini dilatarbelakangi oleh meningkatnya kebutuhan akan metode analisis yang mampu menangani data berdimensi tinggi dan berstruktur hierarki, di mana asumsi independensi pada regresi linear tradisional tidak lagi terpenuhi. Model campuran menjadi alternatif yang semakin relevan karena mampu mengakomodasi ragam antarklaster melalui pengaruh acak. Dua pendekatan yang banyak digunakan, yaitu Generalized Linear Mixed Model dengan sebaran Negative Binomial (GLMM-NB) dan Mixed-Effects Random Forests (MERF), telah menunjukkan kinerja yang baik dalam berbagai studi, tetapi sebagian besar penelitian sebelumnya belum mempertimbangkan keberadaan pencilan secara sistematis. Pencilan dapat mengganggu kestabilan dugaan maupun kemampuan generalisasi model, sehingga diperlukan strategi penanganan yang lebih adaptif. Atas dasar kebutuhan tersebut, penelitian ini bertujuan untuk mengkaji pengaruh residual winsorization terhadap kinerja prediktif pada model GLMM-NB dan MERF. Selain itu, penelitian ini menganalisis kemampuan model dalam mengidentifikasi peubah penting yang memengaruhi konsumsi rokok tembakau pada data sosial-ekonomi Indonesia. Data yang digunakan terdiri atas data empiris dan data simulasi berhierarki. Data empiris mencakup 21.290 individu yang tersarang dalam 2.196 desa di satu provinsi, sedangkan data simulasi dibangkitkan dalam 50 klaster dengan jumlah unit yang setara pada setiap klaster. Studi ini mengevaluasi empat skenario simulasi, dengan skenario dibedakan berdasarkan ukuran contoh ?? = 1.000 dan ?? = 5.000 serta tingkat pencilan sebesar 5% dan 10%. Sebelum analisis, data dibagi menjadi 80% data latih (training data) dan 20% data uji (testing data). Selanjutnya, diterapkan winsorization pada sisaan (residual) dari model awal dengan tingkat 0%, 1%, 2,5%, dan 5%, serta tambahan tingkat 10% khusus untuk skenario dengan proporsi pencilan 10%. Pemodelan dilakukan menggunakan GLMM dan MERF, kemudian kinerja model dievaluasi berdasarkan ukuran kesalahan prediksi pada data latih dan data uji. Evaluasi mencakup perhitungan rasio generalisasi, yaitu perbandingan nilai kesalahan pada data uji dan data latih. Selain itu, dilakukan analisis peubah penting untuk membandingkan kemampuan kedua metode dalam mengidentifikasi peubah-peubah yang berpengaruh terhadap konsumsi rokok. Hasil analisis empiris menunjukkan bahwa MERF memberikan akurasi prediksi yang lebih tinggi dibandingkan GLMM-NB, baik sebelum maupun sesudah winsorization. Namun, model ini sedikit lebih rentan terhadap overfitting, terutama ketika tingkat winsorization meningkat. Sebaliknya, GLMM-NB mengalami penurunan kesalahan prediksi yang lebih besar setelah winsorization dan menghasilkan rasio generalisasi yang lebih stabil. Pada data simulasi, hasil menunjukkan pola yang konsisten. MERF unggul dalam akurasi berdasarkan RMSE, terutama tanpa penerapan winsorization. GLMM-NB cenderung mengalami penurunan RMSE dan MAE yang lebih besar dibandingkan MERF, serta kinerjanya dapat menyamai MERF ketika tingkat winsorization sesuai dengan proporsi pencilan. Hal ini menunjukkan bahwa MERF lebih tahan terhadap pencilan dan GLMM-NB lebih sensitif terhadap pencilan. Penelitian ini memberikan kontribusi dengan membandingkan dua model campuran yang dipadukan dengan residual winsorization pada data sosial-ekonomi Indonesia. Hasil penelitian menunjukkan bahwa winsorization berperan penting dalam meningkatkan kekekaran model ketika pencilan hadir, dengan tingkat winsorization yang perlu disesuaikan dengan karakteristik data agar tidak menghilangkan informasi penting. Selain itu, peubah pengeluaran, usia, status bekerja, dan jenis kelamin secara konsisten teridentifikasi sebagai peubah yang paling berpengaruh terhadap konsumsi rokok. Temuan ini berimplikasi pada pemilihan metode pemodelan yang tepat untuk data berhierarki di bidang sosial dan kesehatan, serta memberikan dasar metodologis bagi penelitian lanjutan dalam pengembangan pendekatan yang lebih stabil dan adaptif terhadap pencilan.

This study is motivated by the increasing need for analytical methods capable of handling high-dimensional and hierarchically structured data, for which the independence assumption of traditional linear regression is no longer satisfied. Mixed-effects models have become a more relevant alternative, as they are able to accommodate between-cluster variability through random effects. Two widely used approaches, namely the Generalized Linear Mixed Model with a Negative Binomial distribution (GLMM-NB) and the Mixed-Effects Random forests (MERF), have demonstrated strong performance in various studies; however, most previous research has not systematically considered the presence of outliers. Outliers may disrupt the stability of parameter estimation and the generalization ability of models, thereby necessitating more adaptive handling strategies. Based on this need, the present study aims to examine the effect of residual winsorization on the predictive performance of GLMM-NB and MERF. In addition, this study analyzes the ability of the models to identify important variables influencing tobacco cigarette consumption using Indonesian socio-economic data. The data used in this study consist of empirical data and hierarchical simulation data. The empirical data include 21,290 individuals nested within 2,196 villages in a single province, while the simulation data are generated across 50 clusters with an equal number of units in each cluster. This study evaluates four simulation scenarios, distinguished by sample sizes of n = 1,000 and n = 5,000 and outlier proportions of 5% and 10%. Prior to analysis, the data are split into 80% training data and 20% testing data. Subsequently, winsorization is applied to the residuals of the initial model at levels of 0%, 1%, 2.5%, and 5%, with an additional level of 10% applied specifically to scenarios with a 10% outlier proportion. Modeling is conducted using GLMM and MERF, and model performance is evaluated based on predictive error measures on both the training and testing data. The evaluation includes the calculation of the generalization ratio, defined as the ratio of prediction error on the testing data to that on the training data. In addition, variable importance analysis is performed to compare the ability of the two methods to identify factors influencing cigarette consumption. The results of the empirical analysis indicate that MERF achieves higher predictive accuracy than GLMM-NB, both before and after winsorization. However, this model is slightly more prone to overfitting, particularly as the level of winsorization increases. In contrast, GLMM-NB exhibits a larger reduction in prediction error following winsorization and yields a more stable generalization ratio. For the simulation data, the results display a consistent pattern. MERF outperforms in terms of accuracy based on RMSE, particularly in the absence of winsorization. GLMM-NB tends to experience larger reductions in RMSE and MAE than MERF, and its performance can match that of MERF when the level of winsorization is aligned with the proportion of outliers. These findings indicate that MERF is more robust to outliers, whereas GLMM-NB is more sensitive to their presence. This study contributes by comparing two mixed-effects models integrated with residual winsorization using Indonesian socio-economic data. The findings demonstrate that winsorization plays an important role in improving model robustness in the presence of outliers, while the level of winsorization must be tailored to the characteristics of the data to avoid the loss of important information. In addition, expenditure, age, employment status, and gender are consistently identified as the most influential variables affecting cigarette consumption. These findings have implications for the selection of appropriate modeling approaches for hierarchical data in social and health research and provide a methodological foundation for future studies aimed at developing more stable and adaptive approaches that account for both data structure and the presence of outliers.

URI

http://repository.ipb.ac.id/handle/123456789/172158

Collections

MT - School of Data Science, Mathematic and Informatics [97]