The Robust and Generalized Linear Mixed Models Path Analysis Enlargement
Date
2024Author
Lestari, Fitri Catur
Kurnia, Anang
Wigena, Aji Hamim
Syafitri, Utami Dyah
Metadata
Show full item recordAbstract
Path analysis, termed classical path analysis in this study, aimed to discern direct and indirect effects among variables, with some variables serving as causes and others as outcomes or responses. It is a method used to examine integrated relationships among variables and constructed from correlation and regression analyses that presume a normal distribution. Violations of the normality assumption are often due to outliers. Pearson correlation is highly susceptible to outliers/anomalies in data. The Ordinary Least Squares (OLS) method in regression is known to perform poorly in the presence of outliers in the data. One approach to address this violation is to discard outliers and conduct estimation using classical methods on data uncontaminated by outliers. However, removing outliers reduces the amount of data, leading to a loss of information that should have been obtained. Moreover, outliers may contain significant information. Therefore, it is necessary to develop robust path analysis from robust correlation and regression against outliers, which includes analyzing data without removing outliers and comparing the classical path analysis results.
In the discussion of the robust path analysis above, the proposed model is one that consists solely of fixed effects. The heterogeneous characteristics of samples often lead surveys to employ multistage random sampling. This sampling method results in hierarchically structured data, which are modeled using mixed linear models. The mixed model or Generalized Linear Mixed Model (GLMM) incorporates predictors containing random effects that is expected to minimize errors in the model. GLMM was initially limited to response following a gaussian or normal distribution (GLMM-N) or Linear Mixed Model (LMM). GLMM has now expanded to accommodate not only normal distributed response but also non-gaussian distributions, such as binomial. GLMM with binomial response, where random effects follow a normal distribution and the link function is logit, are referred to as Binomial GLMM (GLMM-B). Therefore, for hierarchically structured data, it is necessary to develop path analysis derived from GLMM models for both normal and binomial responses.
Based on this background, this study objectives to (1) examine the impact of outliers on classical and robust path analysis, (2) develop and apply robust path analysis to real data and compare the results, and (3) develop and apply GLMM path analysis with binomial and normal responses to real data. The data used in this study is the same as that used in previous research by Usman and Lestari (2016) and Lestari et al. (2018b), which this study aims also to refine it.
There are two prior studies that are significantly refined by this research or paper. The first study is an analysis of classical path analysis, presented at the ICSPI seminar (Usman and Lestari, 2016). The classical path analysis, which examines the determinants of Indonesian economic growth, does not take into account the presence of outliers. Therefore, further research is needed, namely robust path analysis, which considers the presence of outliers without the need to discard them. The second study is focused on GLMM-B was previously conducted by Lestari et al. (2018b), examining the impact of education and employment status of women of reproductive age (Wanita Usia Subur or WUS) on family planning or Keluarga Berencana (KB) success. The data exhibited a hierarchical structure with cluster as random effects. However, the study overlooked the influence of education on employment status. However numerous studies have indicated that education significantly impacts employment status. Considering the relationship, or more specifically, the impact of education on employment status, a theoretical path diagram can be constructed to illustrate the interrelationships among the three variables, providing a foundation for developing a GLMM-B path analysis. Since the data on the number of children, which reflects the success of KB, is available in numerical scale, a GLMM path analysis can also be developed with the response variable assumed to follow a normal distribution.
To achieve the first objective of this study, which is to examine the influence of outliers on path analysis, a simulation study is conducted. The secondary data from Badan Pusat Statistik (BPS) is used as initial data. These characteristics of initial data are explored and then used as a basis for generating simulation data. The three factors used as treatments in the simulation include the number of samples factor (n) namely 20, 30 and 100, the outlier percentage factor (p) namely 5%, 25% and 45% and program repetitions (u) namely 25, 50, 75, 100, 500 and 1000. These three factors are hypothesized influencing the performance of classical and robust path analysis. The performance of path analysis is measured by the adequateness of path analysis model through the Wald test which produces conclusions about whether the model is adequate/inadequate. The results of the percentage of adequacy of the classic and robust path analysis models were tested using two-way analysis of variance: n and p, n and u, and p and u. The result of data processing shows the instability of the adequateness of the classical path analysis model due to the presence of outliers in the data. The adequateness of the robust path analysis model is relatively very stable. The classical path analysis model is influenced by outliers but the robust path analysis model is not influenced by outliers. The classical path analysis is appropriate when the data is not contaminated by outliers. Conversely, robust path analysis is suitable for application to data sets that are either contaminated or uncontaminated by outliers.
The second research objective is achieved by establishing procedures for constructing robust path analysis based on robust correlation and robust regression. Five standard procedures in classical path analysis are modified into robust path analysis procedures as follows: (a) identify outliers, (b) create a path diagram based on theory or previous research results, (c) calculate the robust correlation and robust regression coefficients for all variables by selecting the best robust correlation and regression analyses (Lestari et al. 2018a), (d) compile equations based on the path diagrams, (e) evaluate the equations, and (f) evaluate the model. The results obtained is the development of robust path analysis does not require removing outliers and the results is better than classical path analysis (it means this research has improved previous research). The variety of GDP per capita (the economic growth) that can be explained by the model in the robust path analysis is 99,1%, while the classical path analysis is only 63,4%.
To achieve objective (3), the classical path analysis procedures are modified into GLMM path analysis procedures or GLMM as follows: (a) identify the data hierarchy and the distribution of the response variables, (b) create a path diagram based on theory or previous research results, (c) calculate the coefficients of fixed and random effects using the appropriate GLMM, (d) compile equations based on the path diagrams, including calculating the odds ratio, (e) evaluate the equations, and (f) evaluate the model. This GLMM path analysis is then applied to real data on the success of KB, where the response variable can be presented in categorical form (number of children = 2 and number of children > 2) assumed to follow a binomial distribution, and numerical form assumed to follow a normal distribution. The result is the GLMM-N estimation results indicate that the variance of random cluster effects is 0,070. All variables 5% significantly influence KB success. The estimated number of children for employed WUS with no education, primary education, junior/senior high education, and above senior high education is 4, 4, 3, and 2 children, respectively. Meanwhile, the unemployed WUS are estimated to have 4, 3, 3, and 2 children, consecutively. The GLMM-B estimation results indicate that the variance of random cluster effects is 0,001. The variable that does not significantly influence KB success, with WUS as the unit of analysis, is employment status. Other variables are significant at the 5% level. The tendency for WUS with above senior high education to have a maximum of two children is 5,3 times higher compared to WUS with no education, 4,4 times higher compared to WUS with primary education, and 2,6 times higher compared to WUS with junior/senior high education. The tendency for unemployed WUS to have a maximum of two children is 1,33 times higher compared to employed WUS.
In general, this research introduces new path analysis, specifically robust path analysis (fixed effect) and mixed model path analysis. In the context of research utilizing path analysis, a new framework and procedures can be outlined as follows:
1. Create a path diagram based on hypotheses, theory, or previous research.
2. Conduct data exploration to identify the presence of outliers.
3. If there are no outliers, use classical path analysis. If outliers are present, use robust path analysis as follows:
a. Calculate the correlation coefficients of all variables using various robust correlation and regression methods.
b. Determine the best robust correlation and regression methods.
c. Compile equations based on the path diagrams.
d. Evaluate the equations, including measuring direct and indirect effects.
e. Evaluate the model.
4. Point 3 is applicable to models involving only fixed effects. If the model includes random effects (hierarchical data structure), use GLMM path analysis with the following steps:
a. If the response variable follows a binomial distribution, use GLMM-B to construct the GLMM path analysis. If the response variable follows a normal distribution, use GLMM-N to construct the GLMM path analysis.
b. Calculate the correlation coefficients of all variables, including random effects, using GLMM-B or GLMM-N according to the path diagram.
c. Compile equations based on the path diagrams.
d. Evaluate the equations, including measuring direct and indirect effects.
e. Evaluate the model. Analisis jalur, yang dalam kajian ini disebut sebagai analisis jalur klasik, bertujuan untuk mengidentifikasi pengaruh langsung dan tidak langsung di antara peubah, dengan beberapa peubah berperan sebagai sebab dan yang lainnya sebagai hasil atau respon. Analisis ini digunakan untuk menelaah hubungan terpadu antar peubah dan dibangun dari analisis korelasi dan regresi yang mengasumsikan sebaran normal. Pelanggaran asumsi normalitas sering disebabkan oleh pencilan. Korelasi Pearson sangat rentan terhadap pencilan/anomali dalam data. Metode Ordinary Least Squares (OLS) dalam regresi diketahui berkinerja buruk dalam menghadapi pencilan dalam data. Salah satu pendekatan untuk mengatasi pelanggaran ini adalah dengan menghapus pencilan dan melakukan pendugaan menggunakan metode klasik pada data yang tidak terkontaminasi oleh pencilan. Namun, menghapus pencilan mengurangi jumlah data, yang mengakibatkan hilangnya informasi yang seharusnya dapat diperoleh. Selain itu, pencilan mungkin mengandung informasi signifikan. Oleh karena itu, perlu dikembangkan analisis jalur kekar dari korelasi dan regresi yang kekar terhadap pencilan, yang mencakup analisis data tanpa menghapus pencilan dan membandingkan hasilnya dengan analisis jalur klasik.
Dalam pembahasan analisis jalur kekar di atas, model yang diusulkan adalah model yang hanya terdiri atas efek tetap. Karakteristik heterogen sampel sering kali membuat survei menggunakan metode penarikan contoh acak bertahap. Metode penarikan contoh ini menghasilkan data yang terstruktur secara hierarkis, yang dimodelkan menggunakan model linear campuran. Model campuran linier terampat atau Generalized Linear Mixed Model (GLMM) mengintegrasikan prediktor yang mengandung efek acak yang diharapkan dapat meminimalkan galat dalam model. GLMM awalnya terbatas pada respon yang mengikuti distribusi gaussian atau normal (GLMM-N) atau model linear campuran (LMM). GLMM kini telah berkembang untuk mengakomodasi tidak hanya sebaran respon normal tetapi juga sebaran non-gaussian, seperti binomial. GLMM dengan respon binomial, yang efek acaknya mengikuti sebaran normal dan fungsi hubungnya adalah logit, disebut sebagai GLMM-Binomial (GLMM-B). Oleh karena itu, untuk data yang terstruktur secara hierarkis, perlu dikembangkan analisis jalur yang berasal dari model GLMM untuk respon normal dan binomial.
Berdasarkan latar belakang tersebut, penelitian ini bertujuan untuk (1) mengkaji pengaruh pencilan terhadap analisis jalur klasik dan kekar, (2) membangun dan menerapkan analisis jalur kekar pada data riil dan membandingkan hasilnya, (3) membangun dan menerapkan analisis jalur model campuran linier terampat respon binomial dan respon normal pada data riil. Data yang digunakan dalam penelitian ini adalah data yang sama yang digunakan pada penelitian sebelumnya yang dilakukan oleh Usman dan Lestari (2016) dan Lestari et al. (2018b) yang ingin disempurnakan oleh penelitian ini.
Terdapat dua kajian sebelumnya yang disempurnakan secara signifikan oleh penelitian ini. Kajian pertama adalah analisis jalur klasik yang dipresentasikan pada seminar ICSPI (Usman dan Lestari, 2016). Analisis jalur klasik tersebut, yang menelaah determinan pertumbuhan ekonomi Indonesia, tidak memperhitungkan keberadaan pencilan. Oleh karena itu, diperlukan penelitian lebih lanjut, yaitu analisis jalur kekar, yang mempertimbangkan keberadaan pencilan tanpa perlu menghapusnya. Kajian kedua berfokus pada GLMM-B yang sebelumnya dilakukan oleh Lestari et al. (2018b), meneliti dampak pendidikan dan status bekerja Wanita Usia Subur (WUS) terhadap keberhasilan Keluarga Berencana (KB). Data menunjukkan struktur hierarkis dengan gerombol sebagai efek acak. Namun, kajian tersebut mengabaikan pengaruh pendidikan terhadap status bekerja. Banyak penelitian menunjukkan bahwa pendidikan memiliki dampak signifikan terhadap status bekerja. Dengan mempertimbangkan hubungan, atau lebih spesifik lagi, dampak pendidikan terhadap status bekerja, sebuah diagram jalur teoretis dapat dibangun untuk menggambarkan hubungan di antara ketiga peubah tersebut, sebagai dasar untuk mengembangkan analisis jalur GLMM-B. Mengingat data jumlah anak yang mencerminkan keberhasilan KB tersedia dalam skala numerik, maka analisis jalur model campuran linier terampat juga dapat dikembangkan dengan peubah respon diasumsikan mengikuti sebaran normal.
Untuk mencapai tujuan pertama dari penelitian ini, yaitu untuk meneliti pengaruh pencilan pada analisis jalur, dilakukan sebuah kajian simulasi. Data sekunder dari Badan Pusat Statistik (BPS) digunakan sebagai data awal. Karakteristik data awal ini dieksplorasi dan kemudian digunakan sebagai dasar untuk menghasilkan data simulasi. Tiga faktor yang digunakan sebagai perlakuan dalam simulasi yaitu faktor jumlah sampel (n) yaitu 20, 30, dan 100, faktor persentase pencilan (p) yaitu 5%, 25%, dan 45%, dan ulangan program (u) yaitu 25, 50, 75, 100, 500, dan 1000. Ketiga faktor ini diduga mempengaruhi kinerja analisis jalur klasik dan kekar. Kinerja analisis jalur diukur dengan kebaikan model analisis jalur melalui uji Wald yang menghasilkan kesimpulan model tersebut: memadai atau tidak. Hasil persentase kebaikan model analisis jalur klasik dan kekar diuji menggunakan analisis ragam dua arah: n dan p, n dan u, dan p dan u. Hasil pengolahan data menunjukkan ketidakstabilan kebaikan model dari model analisis jalur klasik akibat adanya pencilan dalam data. Pencilan mempengaruhi kebaikan analisis jalur klasik. Kebaikan model analisis jalur kekar relatif sangat stabil. Model analisis jalur klasik dipengaruhi oleh pencilan tetapi model analisis jalur kekar tidak dipengaruhi oleh pencilan. Sebaiknya gunakan analisis jalur klasik ketika dataset tidak memiliki pencilan. Sebaliknya, analisis jalur kekar dapat diterapkan pada dataset dalam semua kondisi, baik mengandung pencilan atau tidak.
Tujuan kedua dari penelitian ini dicapai dengan menyusun prosedur untuk membangun analisis jalur kekar berdasarkan korelasi kekar dan regresi kekar. Lima prosedur standar dalam analisis jalur klasik dimodifikasi menjadi prosedur analisis jalur kekar sebagai berikut (a) mengidentifikasi pencilan, (b) membuat diagram jalur berdasarkan teori atau hasil penelitian sebelumnya, (c) menghitung koefisien korelasi dan regresi kekar semua peubah dengan cara melakukan pemilihan korelasi kekar dan regresi kekar terbaik (Lestari et al. 2018a), (d) menyusun persamaan berdasarkan diagram jalur, (e) mengevaluasi persamaan, dan (f) mengevaluasi model. Hasil yang diperoleh adalah pengembangan analisis jalur kekar tidak memerlukan penghapusan pencilan dan hasilnya lebih baik daripada analisis jalur klasik (ini berarti penelitian ini telah memperbaiki penelitian sebelumnya). Variasi PDB per kapita (pertumbuhan ekonomi) yang dapat dijelaskan oleh model dalam analisis jalur kekar adalah 99,1%, sedangkan dalam analisis jalur klasik hanya 63,4%.
Selanjutnya untuk mencapai tujuan (3) juga dilakukan dengan cara memodifikasi prosedur analisis jalur klasik menjadi prosedur analisis jalur model campuran linier terampat atau GLMM sebagai berikut (a) mengidentifikasi hirarki data dan sebaran dari peubah respon, (b) membuat diagram jalur berdasarkan teori atau hasil penelitian sebelumnya, (c) menghitung koefisien efek tetap dan acak menggunakan GLMM yang sesuai, (d) menyusun persamaan berdasarkan diagram jalur termasuk di dalamnya menghitung odds ratio, (e) mengevaluasi persamaan, dan (f) mengevaluasi model. Selanjutnya analisis jalur GLMM ini diterapkan pada data riil tentang kesuksesan KB yang peubah responnya dapat disajikan dalam kategorik (jumlah anak <= 2 dan jumlah anak >2) yang diasumsikan mengikuti sebaran binomial dan numerik yang diasumsikan mengikuti sebaran normal. Hasilnya adalah pendugaan GLMM-N menunjukkan bahwa ragam efek gerombol acak adalah 0,070. Semua peubah penjelas signifikan (5%) mempengaruhi keberhasilan KB. Jumlah anak dari WUS yang bekerja dengan status pendidikan: tidak berpendidikan, SD, SMP/SMA, serta pendidikan di atas SMA secara berturut-turut diduga 4, 4, 3, dan 2 anak sedangkan WUS yang tidak bekerja diduga memiliki 4, 3, 3, dan 2 anak. Hasil pendugaan GLMM-B menunjukkan bahwa ragam efek gerombol acak adalah 0,001. Peubah yang tidak mempengaruhi keberhasilan KB secara signifikan, dengan WUS sebagai unit analisis, adalah status bekerja. Peubah lain signifikan pada tingkat 5%. Kecenderungan bagi WUS dengan pendidikan di atas SMA untuk memiliki maksimal dua anak adalah 5,3 kali lebih tinggi dibandingkan dengan WUS yang tidak berpendidikan, 4,4 kali lebih tinggi dibandingkan dengan WUS dengan pendidikan dasar, dan 2,6 kali lebih tinggi dibandingkan dengan WUS dengan pendidikan SMP/SMA. Kecenderungan bagi WUS yang tidak bekerja untuk memiliki maksimal dua anak adalah 1,33 kali lebih tinggi dibandingkan dengan WUS yang bekerja.
Secara umum, penelitian ini menghasilkan analisis jalur baru yaitu analisis jalur kekar (model tetap) dan analisis jalur model campuran linier terampat. Dalam konteks penelitian yang mengggunakan analisis jalur maka dapat disusun suatu kerangka pikir dan prosedur baru sebagai berikut:
1. Buat diagram jalur berdasarkan hipotesis, teori atau penelitian sebelumnya
2. Lakukan eksplorasi data untuk mengidentifikasi adanya pencilan
3. Jika tidak terdapat pencilan maka gunakan analisis jalur klasik. Jika ada pencilan maka gunakan analisis jalur kekar dengan:
a. Menghitung koefisien korelasi dari semua peubah dengan menggunakan berbagai pilihan analisis korelasi dan regresi kekar
b. Menentukan korelasi dan regresi kekar terbaik
c. Menyusun persamaan berdasarkan diagram jalur
d. Mengevaluasi persamaan termasuk di dalamnya mengukur pengaruh langsung dan tidak langsung
e. mengevaluasi model
4. Poin ke-3 digunakan untuk model yang hanya melibatkan efek tetap di dalamnya. Jika dalam model terdapat efek acak (data berstruktur hirarki) maka gunakan analisis jalur model campuran linier terampat dengan langkah:
a. Jika peubah respon menyebar binomial maka gunakan GLMM-B untuk membangun analisis jalur GLMM-B. Jika peubah respon menyebar normal maka gunakan GLMM-N untuk membangun analisis jalur GLMM-N.
b. Menghitung koefisien korelasi semua peubah termasuk efek acak dengan menggunakan GLMM-B atau GLMM-N sesuai dengan diagram jalur
c. Menyusun persamaan berdasarkan diagram jalur
d. Mengevaluasi persamaan termasuk di dalamnya mengukur pengaruh langsung dan tidak langsung
e. Mengevaluasi model