| dc.contributor.advisor | Notodiputro, Khairil Anwar | |
| dc.contributor.advisor | Angraini, Yenni | |
| dc.contributor.author | Arianti, Reza | |
| dc.date.accessioned | 2026-01-19T14:04:41Z | |
| dc.date.available | 2026-01-19T14:04:41Z | |
| dc.date.issued | 2026 | |
| dc.identifier.uri | http://repository.ipb.ac.id/handle/123456789/172158 | |
| dc.description.abstract | Penelitian ini dilatarbelakangi oleh meningkatnya kebutuhan akan metode
analisis yang mampu menangani data berdimensi tinggi dan berstruktur hierarki, di
mana asumsi independensi pada regresi linear tradisional tidak lagi terpenuhi.
Model campuran menjadi alternatif yang semakin relevan karena mampu
mengakomodasi ragam antarklaster melalui pengaruh acak. Dua pendekatan yang
banyak digunakan, yaitu Generalized Linear Mixed Model dengan sebaran
Negative Binomial (GLMM-NB) dan Mixed-Effects Random Forests (MERF),
telah menunjukkan kinerja yang baik dalam berbagai studi, tetapi sebagian besar
penelitian sebelumnya belum mempertimbangkan keberadaan pencilan secara
sistematis. Pencilan dapat mengganggu kestabilan dugaan maupun kemampuan
generalisasi model, sehingga diperlukan strategi penanganan yang lebih adaptif.
Atas dasar kebutuhan tersebut, penelitian ini bertujuan untuk mengkaji pengaruh
residual winsorization terhadap kinerja prediktif pada model GLMM-NB dan
MERF. Selain itu, penelitian ini menganalisis kemampuan model dalam
mengidentifikasi peubah penting yang memengaruhi konsumsi rokok tembakau
pada data sosial-ekonomi Indonesia.
Data yang digunakan terdiri atas data empiris dan data simulasi berhierarki.
Data empiris mencakup 21.290 individu yang tersarang dalam 2.196 desa di satu
provinsi, sedangkan data simulasi dibangkitkan dalam 50 klaster dengan jumlah
unit yang setara pada setiap klaster. Studi ini mengevaluasi empat skenario simulasi,
dengan skenario dibedakan berdasarkan ukuran contoh ?? = 1.000 dan ?? =
5.000 serta tingkat pencilan sebesar 5% dan 10%. Sebelum analisis, data dibagi
menjadi 80% data latih (training data) dan 20% data uji (testing data). Selanjutnya,
diterapkan winsorization pada sisaan (residual) dari model awal dengan tingkat 0%,
1%, 2,5%, dan 5%, serta tambahan tingkat 10% khusus untuk skenario dengan
proporsi pencilan 10%. Pemodelan dilakukan menggunakan GLMM dan MERF,
kemudian kinerja model dievaluasi berdasarkan ukuran kesalahan prediksi pada
data latih dan data uji. Evaluasi mencakup perhitungan rasio generalisasi, yaitu
perbandingan nilai kesalahan pada data uji dan data latih. Selain itu, dilakukan
analisis peubah penting untuk membandingkan kemampuan kedua metode dalam
mengidentifikasi peubah-peubah yang berpengaruh terhadap konsumsi rokok.
Hasil analisis empiris menunjukkan bahwa MERF memberikan akurasi
prediksi yang lebih tinggi dibandingkan GLMM-NB, baik sebelum maupun
sesudah winsorization. Namun, model ini sedikit lebih rentan terhadap overfitting,
terutama ketika tingkat winsorization meningkat. Sebaliknya, GLMM-NB
mengalami penurunan kesalahan prediksi yang lebih besar setelah winsorization
dan menghasilkan rasio generalisasi yang lebih stabil. Pada data simulasi, hasil
menunjukkan pola yang konsisten. MERF unggul dalam akurasi berdasarkan
RMSE, terutama tanpa penerapan winsorization. GLMM-NB cenderung
mengalami penurunan RMSE dan MAE yang lebih besar dibandingkan MERF,
serta kinerjanya dapat menyamai MERF ketika tingkat winsorization sesuai dengan
proporsi pencilan. Hal ini menunjukkan bahwa MERF lebih tahan terhadap
pencilan dan GLMM-NB lebih sensitif terhadap pencilan.
Penelitian ini memberikan kontribusi dengan membandingkan dua model
campuran yang dipadukan dengan residual winsorization pada data sosial-ekonomi
Indonesia. Hasil penelitian menunjukkan bahwa winsorization berperan penting
dalam meningkatkan kekekaran model ketika pencilan hadir, dengan tingkat
winsorization yang perlu disesuaikan dengan karakteristik data agar tidak
menghilangkan informasi penting. Selain itu, peubah pengeluaran, usia, status
bekerja, dan jenis kelamin secara konsisten teridentifikasi sebagai peubah yang
paling berpengaruh terhadap konsumsi rokok. Temuan ini berimplikasi pada
pemilihan metode pemodelan yang tepat untuk data berhierarki di bidang sosial dan
kesehatan, serta memberikan dasar metodologis bagi penelitian lanjutan dalam
pengembangan pendekatan yang lebih stabil dan adaptif terhadap pencilan. | |
| dc.description.abstract | This study is motivated by the increasing need for analytical methods capable
of handling high-dimensional and hierarchically structured data, for which the
independence assumption of traditional linear regression is no longer satisfied.
Mixed-effects models have become a more relevant alternative, as they are able to
accommodate between-cluster variability through random effects. Two widely used
approaches, namely the Generalized Linear Mixed Model with a Negative Binomial
distribution (GLMM-NB) and the Mixed-Effects Random forests (MERF), have
demonstrated strong performance in various studies; however, most previous
research has not systematically considered the presence of outliers. Outliers may
disrupt the stability of parameter estimation and the generalization ability of models,
thereby necessitating more adaptive handling strategies. Based on this need, the
present study aims to examine the effect of residual winsorization on the predictive
performance of GLMM-NB and MERF. In addition, this study analyzes the ability
of the models to identify important variables influencing tobacco cigarette
consumption using Indonesian socio-economic data.
The data used in this study consist of empirical data and hierarchical
simulation data. The empirical data include 21,290 individuals nested within 2,196
villages in a single province, while the simulation data are generated across 50
clusters with an equal number of units in each cluster. This study evaluates four
simulation scenarios, distinguished by sample sizes of n = 1,000 and n = 5,000 and
outlier proportions of 5% and 10%. Prior to analysis, the data are split into 80%
training data and 20% testing data. Subsequently, winsorization is applied to the
residuals of the initial model at levels of 0%, 1%, 2.5%, and 5%, with an additional
level of 10% applied specifically to scenarios with a 10% outlier proportion.
Modeling is conducted using GLMM and MERF, and model performance is
evaluated based on predictive error measures on both the training and testing data.
The evaluation includes the calculation of the generalization ratio, defined as the
ratio of prediction error on the testing data to that on the training data. In addition,
variable importance analysis is performed to compare the ability of the two methods
to identify factors influencing cigarette consumption.
The results of the empirical analysis indicate that MERF achieves higher
predictive accuracy than GLMM-NB, both before and after winsorization. However,
this model is slightly more prone to overfitting, particularly as the level of
winsorization increases. In contrast, GLMM-NB exhibits a larger reduction in
prediction error following winsorization and yields a more stable generalization
ratio. For the simulation data, the results display a consistent pattern. MERF
outperforms in terms of accuracy based on RMSE, particularly in the absence of
winsorization. GLMM-NB tends to experience larger reductions in RMSE and
MAE than MERF, and its performance can match that of MERF when the level of
winsorization is aligned with the proportion of outliers. These findings indicate that
MERF is more robust to outliers, whereas GLMM-NB is more sensitive to their
presence.
This study contributes by comparing two mixed-effects models integrated
with residual winsorization using Indonesian socio-economic data. The findings
demonstrate that winsorization plays an important role in improving model
robustness in the presence of outliers, while the level of winsorization must be
tailored to the characteristics of the data to avoid the loss of important information.
In addition, expenditure, age, employment status, and gender are consistently
identified as the most influential variables affecting cigarette consumption. These
findings have implications for the selection of appropriate modeling approaches for
hierarchical data in social and health research and provide a methodological
foundation for future studies aimed at developing more stable and adaptive
approaches that account for both data structure and the presence of outliers. | |
| dc.description.sponsorship | | |
| dc.language.iso | id | |
| dc.publisher | IPB University | id |
| dc.title | Kajian Perbandingan Generalized Linear Mixed Model Dan Mixed-Effects Random Forest Untuk Analisis Data Yang Mengandung Pencilan | id |
| dc.title.alternative | | |
| dc.type | Tesis | |
| dc.subject.keyword | data berhierarki | id |
| dc.subject.keyword | konsumsi rokok | id |
| dc.subject.keyword | model campuran | id |
| dc.subject.keyword | pencilan sisaan | id |
| dc.subject.keyword | winsorization | id |