Model Regresi Logistik Terboboti Geografis Individu terhadap Status Gizi Berdasarkan Indeks Massa Tubuh pada Wanita Usia Subur (WUS) di Indonesia
Abstract
Regresi logistik adalah analisis statistik yang digunakan untuk menganalisis data individu dengan peubah respon biner dengan beberapa peubah penjelas. Model regresi logistik yang digunakan jika peubah penjelas yang sama menghasilkan respon berbeda di lokasi yang berbeda adalah Regresi Logistik Terboboti Geografis (RLTG). Data individu agar dapat digunakan pada model RTLG, perlu dihubungkan dengan koordinat wilayah administratif tertentu, seperti provinsi, kabupaten dan lain-lain. Model RLTG individu dalam penelitian ini menggunakan koordinat wilayah provinsi dan menganggap semua individu di satu provinsi berada pada koordinat provinsi tersebut, sehingga memungkinkan menghasilkan koefisien regresi yang sama untuk seluruh individu di satu provinsi yang sama. Variasi lokal antar individu dalam provinsi, dalam kasus ini diabaikan. Regresi logistik per provinsi dapat digunakan jika variasi lokal dianggap penting, tetapi model ini tidak menangkap keterkaitan antar provinsi. Pemodelan RLTG dengan data agregat provinsi menjadi alternatif yang dapat dipertimbangkan.
Pengolahan data individu dengan respon biner terkait wilayah dapat dilakukan melalui strategi pemodelan berbasis data individu atau berbasis wilayah. Pemodelan berbasis data individu mencakup pemodelan regresi logistik dan RLTG individu (data individu dianalisis menggunakan koordinat provinsi). Pemodelan berbasis wilayah mencakup pemodelan regresi logistik per provinsi (data individu dianalisis secara terpisah untuk setiap provinsi), serta RLTG provinsi (data individu dikonversi menjadi data agregat per provinsi untuk dianalisis menggunakan konsep RLTG). Pendugaan parameter pada model RLTG provinsi dan RLTG individu menggunakan matriks pembobot dengan fungsi pembobot kernel tetap (fixed) dan adaptif kuadrat ganda. Pemilihan bandwith optimum dilakukan dengan kriteria Cross-Validation (CV) untuk menyesuaikan karakteristik data.
Penelitian ini menggunakan data Riset Kesehatan Dasar untuk menilai status gizi Wanita Usia Subur (WUS) di Indonesia berdasarkan Indeks Massa Tubuh (IMT). Data mencakup 9418 sampel individu dari 33 provinsi dengan 10 peubah yang diobservasi. IMT digunakan sebagai peubah respon, dengan nilai 0 untuk IMT tidak ideal (berat badan kurang, pra-obesitas, obesitas I, II, III) dan nilai 1 untuk IMT ideal. Peubah penjelas meliputi level hemoglobin, level protein pengikat zat besi dalam darah (ferritin), level C-Reactive Protein (CRP) sebagai penanda peradangan, usia, aktivitas fisik, lokasi, status pernikahan, pendidikan, dan pola konsumsi makanan berisiko.
Penyesuaian data dilakukan sesuai model yang digunakan. Model regresi logistik dan RLTG individu menggunakan data asli, sedangkan model regresi logistik per provinsi dan RLTG provinsi menggunakan data yang telah disesuaikan. Pemisahan data dalam model regresi logistik per provinsi menyebabkan peubah aktivitas fisik dan lokasi tidak memiliki kategori di beberapa provinsi, sehingga hanya tujuh peubah penjelas yang digunakan. Model RLTG provinsi menggunakan data persentase dan rerata tiap provinsi dengan sembilan peubah penjelas. Fungsi kernel adaptif kuadrat ganda menjadi pembobot terbaik untuk model RLTG provinsi dan model RLTG individu. Nilai AIC model RLTG provinsi dengan fungsi kernel adaptif kuadrat ganda adalah 43,735 dan nilai AIC model RLTG individu adalah 12,491.25.
Model RLTG individu lebih efektif untuk memodelkan data IMT pada WUS di Indonesia dibandingkan model regresi logistik per provinsi dan model RLTG provinsi. Model RLTG individu tetap mampu menangkap efek lokasi antar provinsi meskipun koordinat individu dalam satu provinsi dianggap sama. Model regresi logistik per provinsi tidak dapat menangkap keterkaitan antar provinsi, karena analisis dilakukan secara terpisah untuk setiap provinsi. Konversi data individu menjadi data agregat pada model RLTG provinsi mengurangi variasi dalam data sehingga hubungan antara peubah penjelas dan respon sulit terdeteksi secara statistik. Akibatnya, pada model RLTG provinsi tidak terdapat satu pun peubah yang berpengaruh di semua provinsi.
Hasil pemodelan regresi logistik, regresi logistik per provinsi, dan RLTG individu menunjukkan level CRP non inflamasi memiliki nilai odds > 1 yang artinya level CRP non-inflamasi dapat meningkatkan peluang WUS memiliki IMT ideal dibandingkan dengan level CRP inflamasi. Peubah lain memiliki interpretasi yang berbeda di setiap provinsi dalam meningkatkan peluang IMT ideal pada WUS. Peta variasi geografis signifikansi dan odds rasio dari model RLTG individu dengan fungsi kernel adaptif kuadrat ganda memberikan visualisasi efektif untuk mengembangkan intervensi kesehatan masyarakat yang lebih terarah dan memprioritaskan strategi yang paling mungkin efektif di berbagai provinsi. Logistic regression is a statistical analysis of individual data with a binary response variable and several explanatory variables. The Logistic Regression model used when the same explanatory variables produce different responses in different locations is called Geographically Weighted Logistic Regression (GWLR). To be used in the GWLR model, individual data needs to be linked to the coordinates of certain administrative regions, such as provinces, districts, and others. Individual-level GWLR model in this study uses provincial coordinates and assumes all individuals in a province are located at the province's coordinates, thus allowing the same regression coefficients for all individuals in the same province. Local variation among individuals within the province, in this case, is ignored. Provincial logistic regression can be used if local variation is important, but this model does not capture the relationships between provinces. GWLR modeling with aggregated provincial data becomes an alternative worth considering.
The processing of individual data with a binary response related to regions can be conducted through individual-based and region-based modeling strategies. Individual-based modeling includes logistic regression modeling and Individual-level GWLR (where individual data is analyzed using provincial coordinates). Region-based modeling includes provincial logistic regression (where individual data is analyzed separately for each province) and provincial GWLR (where individual data is converted into aggregate data per province and analyzed using the GWLR concept). Parameter estimation in both the provincial GWLR and individual-level GWLR models utilizes a weighting matrix with fixed and adaptive double quadratic kernel weighting functions. The optimal bandwidth selection uses the Cross-Validation (CV) criterion to match the data characteristics.
This study uses data from the Basic Health Research (Riskesdas) survey to evaluate the nutritional status of Women of Reproductive Age (WRA) in Indonesia based on Body Mass Index (BMI). The dataset includes 9.418 individual samples from 33 provinces with 10 observed variables. BMI is used as the response variable, where a value of 0 indicates non-ideal BMI (underweight, pre-obesity, obesity I, II, III), and a value of 1 indicates ideal BMI. Predictor variables include hemoglobin level, an iron-binding protein in the blood level (ferritin), C-reactive protein (CRP) level as an inflammation marker, age, physical activity, location, marital status, education, and the consumption pattern of high-risk foods.
Data adjustments are made according to the model used. Logistic regression and individual-level GWLR use raw data, while logistic regression modeling by province and provincial GWLR use adjusted data. Data separation in the logistic regression modeling by province causes physical activity and location variables to lack categories in some provinces, limiting the number of predictors to seven. Provincial GWLR uses percentage and average data per province with nine predictor variables. The adaptive bi-square kernel function was the best weighting function for both provincial and individual-level GWLR models. The AIC value for the provincial GWLR model using the adaptive bi-square kernel function is 43,735, while the AIC value for the individual-level GWLR model is 12,491.25.
The individual-level GWLR modeling is more effective in modeling the BMI data of WRA in Indonesia compared to the provincial logistic regression model and the provincial GWLR model. The individual-level GWLR model can still capture the inter-provincial location effects even though all individuals in a province are assumed to share the same coordinates. The logistic regression modeling by province cannot capture inter-provincial relationships since the analysis is conducted separately for each province. Converting individual data into aggregate data in the provincial GWLR model reduces data variation, making the relationship between explanatory variables and the response difficult to detect statistically. As a result, no explanatory variable shows a significant effect in all provinces under the provincial GWLR model.
The results of logistic regression, provincial logistic regression, and individual-level GWLR modeling indicate similar odds ratios >1 for CRP levels. Non-inflammatory CRP levels increase the likelihood of WRA having an ideal BMI compared to inflammatory CRP levels. Other variables have different interpretations in increasing the likelihood of an ideal BMI across provinces. Geographic variation maps of significance and odds ratios from the individual-level GWLR model with the adaptive bi-square kernel function provide an effective visualization tool for developing targeted public health interventions and prioritizing strategies likely to be effective in various provinces.