Kajian Perbandingan Generalized Random Forest, Random Forest dan Generalized Linear Mixed Model untuk Pemodelan Pengeluaran Perkapita Rumah Tangga
Date
2024Author
Isnanda, Eriski
Notodiputro, Khairil Anwar
Sadik, Kusman
Metadata
Show full item recordAbstract
Di era digital, kemampuan menganalisis dan memprediksi data menjadi keterampilan penting. Machine learning dan metode statistik berperan besar dalam membangun model prediktif yang akurat. Machine learning memanfaatkan metode seperti supervised learning dan unsupervised learning untuk membuat prediksi dari data tanpa program eksplisit, sementara metode statistik menyediakan dasar teori untuk memahami data, mengukur ketidakpastian, dan menguji hipotesis. Kedua pendekatan ini saling melengkapi dalam menjawab tantangan analisis data kompleks.
Generalized Random Forest (GRF) merupakan pengembangan dari Random Forest (RF) yang memperluas kemampuan analisis menjadi lebih fleksibel, seperti mengevaluasi pengaruh perlakuan heterogenitas dan analisis kausal. Meski GRF unggul dalam inferensi lokal, RF tetap menjadi metode sederhana yang akurat untuk prediksi. Sebaliknya, Generalized Linear Mixed Models (GLMM) cocok untuk data hierarkis dengan pengaruh acak, meskipun kurang efektif pada data dengan pola hubungan non-linear. Penelitian ini memanfaatkan data SUSENAS Maret 2021, yang mencakup informasi pengeluaran per kapita rumah tangga, sebagai bahan untuk membandingkan kinerja ketiga metode ini di wilayah Jawa Barat.
Data pengeluaran per kapita memiliki pola distribusi asimetris yang menjulur ke kanan, menyebabkan pencilan yang signifikan. Penanganan pencilan dilakukan dengan Winsorization, yang mengganti nilai ekstrem tanpa menghilangkannya. Penelitian ini berfokus untuk mengevaluasi dan membandingkan kinerja GRF, RF, dan GLMM dalam memodelkan pengeluaran rumah tangga berdasarkan data SUSENAS, serta mengidentifikasi kelebihan dan kekurangan masing-masing metode. Temuan penelitian ini diharapkan memberikan wawasan tentang metode terbaik untuk memodelkan data pengeluaran per kapita dalam konteks ekonomi Indonesia.
Penelitian ini bertujuan untuk mengevaluasi dan membandingkan kinerja tiga metode pemodelan, yaitu Generalized Random Forest (GRF), Random Forest (RF), dan Generalized Linear Mixed Model (GLMM), dalam memprediksi pengeluaran per kapita rumah tangga di Jawa Barat berdasarkan data SUSENAS Maret 2021. Pengeluaran per kapita digunakan sebagai indikator kesejahteraan rumah tangga, mencakup 5.561 rumah tangga dari enam kabupaten/kota, dengan kategori wilayah PDRB tinggi (Kota Bandung, Kabupaten Bekasi, Kabupaten Bogor) dan rendah (Kabupaten Kuningan, Kota Sukabumi, Kota Banjar). Tantangan utama penelitian ini adalah menangani pola distribusi data yang asimetris dengan pencilan signifikan yang dapat memengaruhi hasil pemodelan.
Ketiga metode yang diuji memiliki pendekatan yang berbeda. GRF dirancang untuk menangkap pengaruh perlakuan heterogen dan inferensi lokal, RF berfokus pada akurasi prediksi berbasis ensemble, sedangkan GLMM mampu mengakomodasi pengaruh acak untuk data hierarkis. Model yang dibangun dievaluasi menggunakan Mean Squared Error (MSE), dengan optimasi parameter dilakukan melalui 10-fold cross-validation. Pencilan dalam data ditangani dengan metode Winsorization untuk mengurangi pengaruh nilai ekstrem tanpa menghapus data.
Hasil penelitian menunjukkan bahwa RF memiliki kinerja terbaik, menghasilkan nilai MSE terkecil baik di wilayah ber-PDRB tinggi maupun rendah. Hal ini menunjukkan bahwa RF mampu menangkap pola hubungan kompleks antar variabel dengan akurasi yang tinggi. GRF menempati posisi kedua, menunjukkan kinerja yang cukup baik tetapi masih di bawah RF. Di sisi lain, GLMM memiliki MSE tertinggi, menandakan keterbatasannya dalam menangani pola data non-linear dan struktur hubungan yang kompleks. Selain itu, Winsorization terbukti efektif dalam meningkatkan akurasi model, dengan penurunan nilai MSE yang signifikan pada semua metode.
Analisis varians dua arah (ANOVA) menunjukkan bahwa faktor metode, kategori PDRB, dan interaksi keduanya secara signifikan memengaruhi nilai MSE. Hasil ini menegaskan bahwa metode yang digunakan memberikan hasil berbeda tergantung pada karakteristik wilayah. Pengujian lebih lanjut dengan uji Tukey menunjukkan bahwa RF secara statistik lebih unggul dibandingkan GRF dan GLMM, baik untuk wilayah ber-PDRB tinggi maupun rendah. GRF lebih baik dibandingkan GLMM, tetapi masih kalah akurat dibandingkan RF.
Dari hasil prediksi, RF memberikan estimasi yang paling mendekati nilai aktual, baik di daerah dengan pengeluaran rumah tangga tinggi maupun rendah. GRF menunjukkan kemampuan yang lebih adaptif dibandingkan GLMM, terutama dalam menangani pencilan. Namun, GLMM memiliki keunggulan dalam analisis data dengan pengaruh acak, sehingga pengembangan lebih lanjut dapat dilakukan dengan menambahkan tingkat pengaruh acak yang lebih rinci, seperti kecamatan atau blok sensus.
Penelitian ini menyimpulkan bahwa RF adalah metode terbaik untuk memodelkan pengeluaran per kapita rumah tangga di Jawa Barat, diikuti oleh GRF dan GLMM. Penelitian lebih lanjut direkomendasikan untuk menggunakan pengaruh acak yang lebih spesifik pada GLMM, mengeksplorasi wilayah lain di Indonesia, atau mengembangkan metode hybrid yang menggabungkan keunggulan GRF dan RF. Temuan ini dapat menjadi acuan penting bagi pengambilan kebijakan yang berbasis data, khususnya dalam merancang program peningkatan kesejahteraan rumah tangga di berbagai wilayah.