Modified Mixed Effects Random Forest dalam Small Area Estimation Menggunakan PCA dan Rotation Forest untuk Statistik Pengeluaran Per Kapita di Provinsi Jambi
Date
2025Author
Ananda, Rizki
Notodiputro, Khairil Anwar
Aidi, Muhammad Nur
Metadata
Show full item recordAbstract
Penelitian ini dilatarbelakangi oleh masalah multikolinieritas yang sering
muncul dalam data empiris, termasuk dalam analisis pengeluaran per kapita.
Masalah ini dapat mengurangi keandalan interpretasi dan pendugaan parameter
model regresi. Tantangan ini semakin kompleks karena data pengeluaran per kapita
di wilayah kecil seperti desa dan kecamatan di Indonesia sering kali terbatas.
Keterbatasan ini mencakup ukuran contoh yang kecil serta minimnya ketersediaan
data. Pendekatan pendugaan area kecil (small area estimation, SAE) digunakan
untuk meningkatkan presisi pendugaan parameter pada wilayah kecil dengan
memanfaatkan informasi tambahan dari area lain dan sumber data eksternal. Model
linier campuran yang umum digunakan dalam SAE memiliki tantangan dalam
linieritas, normalitas, dan multikolinieritas yang sering kali ditemukan dalam data
empiris. Sebagai alternatif, pendekatan nonparametrik berbasis pembelajaran
mesin, seperti mixed effects random forest (MERF), mulai diperkenalkan untuk
mengatasi tantangan ini. Dalam SAE, MERF memiliki keunggulan dalam
mengintegrasikan kekutan prediksi random forest (RF) dengan model campuran.
Pendekatan ini memungkinkan identifikasi pengaruh acak pada data hierarkis
secara lebih akurat. MERF dinilai berpotensi dalam SAE, terutama untuk data
nonlinier dan nonparametrik. Namun, penelitian sebelumnya belum secara eksplisit
mengeksplorasi kinerja MERF dalam menghadapi multikolinieritas. Oleh karena
itu, diperlukan penelitian lanjutan untuk menguji dan mengembangkan metode ini.
Penelitian ini bertujuan untuk mengkaji keandalan MERF dalam SAE,
terutama dalam menghadapi tantangan linieritas, normalitas, multikolinieritas, dan
keragaman antararea. Dua modifikasi terhadap MERF diusulkan, yaitu principal
component analysis-mixed effects random forest (PCA-MERF) dan mixed effects
rotation forest (MERoF). PCA-MERF menggunakan analisis komponen utama
(principal component analysis, PCA) pada tahap prapemrosesan peubah yang akan
digunakan dalam MERF untuk mengurangi multikolinieritas. Sementara itu,
MERoF menggunakan rotation forest (RoF) yang mengintegrasikan PCA pada
semua subset peubah penyerta sambil mempertahankan kelengkapan informasi data
dalam membangun pohon keputusan. Kinerja ketiga metode dibandingkan melalui
kajian simulasi dan empiris dengan fokus pada pendugaan pengeluaran per kapita
tingkat kecamatan di Provinsi Jambi tahun 2021.
Kajian simulasi membangkitkan 16 skenario data dengan berbagai
karakteristik data seperti sebaran (simetris–nonsimetris), pola hubungan antara
peubah penyerta dan peubah respon (linier–nonlinier), tingkat multikolinieritas
(kecil–besar), dan keragaman antararea (kecil–besar). Data populasi sebanyak
200.000 amatan yang terbagi ke dalam 50 area kecil secara seimbang, dengan setiap
area memiliki 30 contoh yang diambil secara acak. Pengambilan contoh dilakukan
100 kali untuk menghasilkan 100 gugus data berbeda pada setiap skenario. Evaluasi
kinerja metode menggunakan metrik bias dan relative root mean square error
(RRMSE), serta analysis of variance (ANOVA) dan uji beda nyata jujur (BNJ)
untuk mengukur signifikansi perbedaan kinerja antarmetode pada tingkat
kepercayaan 95%. Apabila asumsi ANOVA tidak terpenuhi, pohon regresi
digunakan untuk mempermudah analisis faktor yang memengaruhi kinerja. Kajian
empiris menggunakan data Survei Sosial Ekonomi Nasional (SUSENAS) Maret
2021 sebagai sumber data untuk peubah respon dan Potensi Desa (PODES) 2021
sebagai sumber data peubah penyerta. Pendugaan dilakukan pada tingkat desa dan
kemudian diagregasi ke tingkat kecamatan dengan pendekatan bootstrap.
Hasil penelitian menunjukkan bahwa MERF memberikan kinerja yang baik
dalam SAE. Namun, modifikasi melalui PCA-MERF dan MERoF mampu
menunjukkan peningkatan akurasi dan presisi pada berbagai kondisi data. Kajian
simulasi menunjukkan bahwa MERoF unggul pada data dengan sebaran
nonsimetris, baik dengan pola hubungan linier maupun nonlinier, dengan nilai bias
terkecil dan RRMSE yang konsisten. Pada data dengan sebaran simetris dan pola
hubungan linier, MERF menunjukkan efisiensi yang lebih tinggi. PCA-MERF juga
andal, meskipun belum sepenuhnya melampaui kinerja MERF pada sebagian besar
skenario. Namun, ketiga metode masih menunjukkan performa kurang efektif pada
data dengan sebaran simetris dan pola hubungan nonlinier.
Hasil simulasi dan empiris menunjukkan bahwa MERF, PCA-MERF, dan
MERoF efektif dalam mengatasi multikolinieritas, terutama pada data dengan
peubah yang memiliki korelasi tinggi. Kajian empiris menunjukkan bahwa PCAMERF
memberikan pendugaan pengeluaran per kapita kecamatan dengan presisi
terbaik, sementara MERoF lebih unggul dalam pendugaan rata-rata pengeluaran per
kapita desa. Dugaan nilai tengah pengeluaran per kapita kecamatan menggunakan
metode tebaik (PCA-MERF) menunjukkan hasil yang reliabel dengan coefficients
of variation (CV) antara 1,80–20,02 persen. Dengan demikian, penelitian ini
menegaskan bahwa modifikasi metode dengan pendekatan yang
mempertimbangkan pengurangan multikolinieritas dapat meningkatkan kualitas
pendugaan dalam SAE, serta memberikan pendugaan yang lebih presisi untuk nilai
tengah pengeluaran per kapita pada area kecil tingkat kecamatan.