Title: Kajian Simulasi dan Empiris: Kinerja Model Copula dan Regresi Galat Tersarang dalam Menduga Pengeluaran per Kapita Kecamatan di Kabupaten Pidie
Other Titles: Simulation and Empirical Studies: Performance of Copula and Nested Error Regression Models in Estimating per Capita Expenditure of Subdistrict in Pidie Regency
Authors: Notodiputro, Khairil Anwar
Sartono, Bagus
Hasanah, Nur
Issue Date: Aug-2023
Publisher: IPB University
Abstract: Meningkatnya kebutuhan terhadap statistik area kecil yang reliabel telah mendorong pengembangan metode pendugaan area kecil (Small Area Estimation/SAE). Pada SAE level unit yang menggunakan data level unit dalam area kecil terdapat hubungan antarunit yang disebabkan oleh pengaruh acak spesifik area. Penyimpangan sebaran bersama unit-unit dari normal peubah ganda dapat terjadi ketika asumsi normal tidak terpenuhi, terutama pada data asimetris. Model Multivariate Exchangeable Copulas (MEC) merupakan pendekatan alternatif untuk mengatasi masalah ini. Berbeda dengan model Regresi Galat Tersarang (RGT) yang berdasarkan model campuran linier, model MEC didasarkan pada model linier umum. Dengan menggunakan copula yang dapat dipertukarkan (exchangeable) dan diperluas (extendible), model MEC membentuk fungsi sebaran kumulatif bersama yang sekaligus menggambarkan struktur dependensi dari galat model linier umum di setiap area kecil. Copula ini diasosiasikan dengan sebaran pengaruh acak spesifik area dan dependensi dalam area (within-area dependency) di setiap area kecil. Penelitian ini bertujuan untuk mengevaluasi kinerja model MEC dan RGT melalui kajian simulasi dan empiris. Model MEC menggunakan metode prediksi tak bias terbaik empiris (Empirical Best Unbiased Prediction/EBUP), sedangkan model RGT menggunakan metode prediksi tak bias linier terbaik empiris (Empirical Best Linear Unbiased Prediction/EBLUP) dalam menduga nilai tengah area kecil. Model MEC menggunakan copula Gaussian dan dua pendekatan pemodelan, yaitu parametrik dan semiparametrik, yang modelnya disebut sebagai MEC-P dan MEC-S. Kajian simulasi dengan simulasi Monte-Carlo berbasis rancangan dilakukan dengan seratus ulangan. Dalam kajian simulasi, data populasi peubah respons kontinu menyebar Skew-Normal (SN) dengan karakteristik mirip data empiris dibangkitkan berdasarkan model MEC dan RGT bersama dengan dua peubah penyerta bertipe kontinu dan diskret. Data populasi memiliki jumlah area kecil 10 dan 20 sehingga populasi terbagi menurut jenis basis model dan jumlah area kecil. Pada setiap ulangan, dilakukan penarikan data contoh dengan sampling acak sederhana tanpa pengembalian dari setiap populasi. Data contoh diambil mengikuti skenario ukuran contoh unit bervariasi antararea kecil dan sama di setiap area kecil. Ketiga model kemudian diterapkan pada data contoh. Kinerja model dalam setiap ulangan dievaluasi dengan menggunakan tiga kriteria, yaitu galat relatif absolut (Absolute Relative Error/ARE) penduga EBUP/EBLUP, kuadrat tengah galat empiris (Empirical Mean Squared Error/EMSE), dan galat relatif absolut penduga MSE (ARE MSE). ARE dan ARE MSE merupakan ukuran akurasi, sedangkan EMSE sebagai ukuran presisi. Analisis ragam (Analysis of Variance/Anova) klasifikasi tiga arah dengan Rancangan Acak Lengkap (RAL) dilakukan untuk mengevaluasi kriteria kinerja dari seluruh ulangan dengan mempertimbangkan faktor model, jumlah area kecil, dan ukuran contoh unit. Uji Beda Nyata Jujur (BNJ) atau uji Tukey digunakan dalam perbandingan lanjutan terhadap hasil Anova yang nyata. Pada kajian empiris, data pengeluaran per kapita rumah tangga kondisi Maret 2021 di Kabupaten Pidie, Provinsi Aceh, digunakan sebagai peubah respons kontinu yang menyebar simetris SN bersama dengan empat peubah penyerta, yaitu jumlah koperasi lainnya, jumlah bank, proporsi surat keterangan tidak mampu terhadap jumlah keluarga, dan lama kepala rumah tangga bersekolah. Kriteria kinerja model adalah akar kuadrat tengah galat (Root Mean Squared Error/RMSE). Anova klasifikasi satu arah dengan RAL dilakukan menggunakan faktor model dilanjutkan uji BNJ untuk perbandingan berpasangan. Pada kajian simulasi dapat disimpulkan berdasarkan hasil Anova dan uji BNJ dengan tingkat kepercayaan 95 persen bahwa (1) Kinerja presisi penduga EBUP model MEC-S lebih baik dibandingkan penduga EBLUP model RGT ketika menggunakan data RGT dan (2) Kinerja akurasi penduga MSE tak terlepas dari jenis data yang digunakan dan ukuran contoh unit di area kecil. Ketika menggunakan data model MEC, kinerja akurasi penduga MSE model MEC-P dan RGT lebih baik dibandingkan model MEC-S. Di sisi lain, ketika menggunakan data model RGT, kinerja akurasi penduga MSE model RGT lebih baik dibandingkan model MEC-P dan MEC-S pada ukuran contoh unit bervariasi antararea kecil, sedangkan kinerja akurasi penduga MSE model MEC-P dan MEC-S pada ukuran contoh sama lebih baik dibandingkan ukuran contoh bervariasi. Pada kajian empiris, hasil Anova klasifikasi satu arah RAL dengan tingkat kepercayaan 95 persen menunjukkan bahwa faktor model nyata memengaruhi dugaan RMSE. Model MEC-P berkinerja lebih baik dengan dugaan RMSE yang lebih kecil dibandingkan MEC-S dan RGT dalam menduga pengeluaran per kapita level kecamatan di Kabupaten Pidie, Provinsi Aceh, kondisi Maret 2021. Dengan koefisien keragaman model MEC-P di antara 2,642 hingga 23,289 persen, dugaan pengeluaran per kapita level kecamatan di Kabupaten Pidie yang dihasilkan dapat dikategorikan reliabel. Hasil kajian perbandingan kinerja model MEC dan RGT pada penelitian ini dapat memberikan wawasan mengenai kinerja model. Hal ini dapat membantu peneliti dan pembuat kebijakan untuk membuat keputusan yang tepat terkait pemilihan model yang sesuai dalam konteks SAE untuk menghasilkan dugaan nilai tengah area kecil yang akurat, presisi, dan reliabel. Hasil kajian penelitian ini juga berkontribusi dalam menyediakan informasi pengeluaran per kapita level kecamatan di Kabupaten Pidie, Provinsi Aceh, kondisi Maret 2021. Informasi dugaan pengeluaran per kapita di level kecamatan yang dihasilkan dapat mendukung peningkatan pencapaian Tujuan Pembangunan Berkelanjutan/TPB, khususnya Tujuan 1 (tanpa kemiskinan) dan Tujuan 10 (mengurangi ketimpangan), yang berkontribusi pada upaya pengentasan kemiskinan dan mendukung pemerataan sumber daya.
The increasing need for reliable small area statistics has led to the developing of Small Area Estimation (SAE) methods. In unit-level SAE, which utilized data from units within small areas, there is a correlation among the units induced by the random effect of specific areas. However, deviations of the joint distribution of the units from the expected multivariate normal can occur when the normality assumptions are violated, particularly in skewed data. The Multivariate Exchangeable Copulas (MEC) model has emerged as an alternative approach to address this issue. Unlike the Nested Error Regression (NER) based on the linear mixed model, the MEC model operates based on the general linear model (LM). By incorporating exchangeable and extendible copulas, the MEC model constructs a joint cumulative distribution function that captures the dependence structure of the LM errors in each small area. These copulas are associated with the distribution of random effects of specific areas and the within-area dependence in each small area. This study aims to evaluate the performance of the MEC and the NER model through simulation and empirical studies. The MEC employs the empirical best unbiased prediction (EBUP), while NER employs the empirical best linear unbiased prediction (EBLUP) in estimating the small area means. The MEC model employs the Gaussian copula and two modelling approaches: the parametric and semiparametric, referred to as MEC-P and MEC-S, respectively. The simulation study of the Monte-Carlo design-based simulation is conducted with a hundred iterations. In the simulation study, the skew-normal (SN) continuous response data population similar to the characteristics of the empirical data is generated based on the MEC and NER models along with two continuous and discrete (count) auxiliary variables. The population data has small areas of 10 and 20; hence the population is divided according to the based-data model and the number of small areas. In each iteration, sample data is drawn by simple random sampling without replacement from each population. Samples are drawn according to the scenario of varying unit sample sizes between small areas and the same unit sample size in each small area. The three models are then applied to the sample data. The model performance is evaluated using three criteria: absolute relative error of the EBUP or EBLUP estimator (ARE), empirical mean squared error (EMSE), and absolute relative error of the mean squared error estimator (ARE MSE). ARE and ARE MSE is the metric for accuracy, while EMSE is for precision. A three-way Analysis of Variance (Anova) of a Completely Randomized Design (CRD) is conducted to evaluate the criteria by considering the factors of models, number of small areas, and unit sample size. The Honest Significance Difference or Tukey's test is employed for post-hoc comparisons. In the empirical study, household per capita expenditure (HPCE) data of Pidie Regency, Aceh Province, for March 2021 is used as the SN continuous response variable, along with four auxiliary variables, which are the number of other cooperatives, the number of banks, the proportion of inability letters to the number of families, and the number of years the head of household attends school. The performance criterion of the models is the Root Mean Squared Error (RMSE). A one-way Anova of a CRD is performed, with the factor being the model. Tukey's test is used for further pairwise comparisons. In the simulation study, it can be concluded from Anova and Tukey's test results at a 95 percent confidence level that (1) The precision performance of the EBUP estimator of the MEC-S model surpasses the EBLUP estimator of the RGT model when utilizing the RGT model data, and (2) The accuracy performance of the MSE estimator is related to the based-data used and the unit sample size in small areas. Specifically, when using MEC model data, the accuracy performance of the MSE estimator of the MEC-P and RGT models outperforms the MEC-S model. On the other hand, when employing RGT model data, the accuracy performance of the MSE estimator of the RGT model is superior to that of the MEC-P and MEC-S models at the varying unit sample sizes, while the accuracy performance of the MSE estimator of the MEC-P and MEC-S models perform better at the same than varying unit sample sizes. The one-way Anova of CRD results at a 95 percent confidence level in the empirical study demonstrated that the model significantly affects the RMSE estimates. Specifically, the MEC-P model performed better with a smaller RMSE estimate than the MEC-S and NER models in estimating HPCE at the subdistrict level in Pidie Regency, Aceh Province, for March 2021. With the coefficient of variation of the MEC-P model between 2.642 and 23.289 percent, the estimates of HPCE at the subdistrict level in Pidie Regency can be categorized as reliable. The comparison between the MEC and NER models provides valuable insights into their performance. It helps researchers and policymakers make informed decisions regarding selecting appropriate models for SAE in producing accurate, precise, and reliable small area estimates. The results also provide information on HPCE estimates at the subdistrict level in Pidie Regency, Aceh Province, for March 2021. The information of resulting HPCE estimates at the subdistrict level has implications for advancing the achievements of the Sustainable Development Goals (SDGs), particularly Goal 1 (No Poverty) and Goal 10 (Reduced Inequalities) that contribute to poverty reduction efforts and support the equitable distribution of resources.
