Pemodelan Regresi Kontinum dengan Pra Pemrosesan Seleksi Peubah untuk Pendugaan Curah Hujan
Date
2021-02-23Author
Arisandi, Arwini
Wigena, Aji Hamim
Soleh, Agus Mohamad
Metadata
Show full item recordAbstract
Indonesia berada di wilayah tropis dengan intensitas curah hujan yang tinggi terutama di daerah dataran tinggi. Frekuensi curah hujan dapat menimbulkan berbagai peristiwa ekstrim yang akan berdampak pada kualitas dan kuantitas produksi hasil tani. Curah hujan sangat penting karena merupakan salah satu sumber penyediaan air bagi tanaman. Informasi mengenai curah hujan diperoleh dari data Global Climate Models (GCM).
Data GCM berhubungan dengan sistem iklim berskala global sehingga sulit untuk mendapatkan informasi berskala lokal untuk menduga curah hujan. Metode statistical downscaling (SDS) dapat digunakan untuk mengatasi masalah tersebut. Metode SDS adalah salah satu metode untuk menduga curah hujan dengan menghubungkan unsur iklim berskala global yang diperoleh dari data luaran GCM dengan unsur iklim berskala lokal melalui stasiun klimatologi. Permasalahan yang umum terjadi dalam SDS adalah terjadinya multikolinieritas atau korelasi spasial antar grid dalam domain. Salah satu metode yang dapat mengatasi masalah multikolinieritas adalah regresi kontinum (RK) namun masalah dalam RK adalah jumlah pengamatan yang jauh lebih kecil daripada banyaknya peubah prediktor (n≪p) sehingga diperlukan metode pra-pemrosesan dalam bentuk penyeleksian peubah prediktor. Metode penyeleksian peubah yang digunakan adalah metode Least Absolute Shrinkage and Selection Operator (LASSO) dan forward selection. Penelitian ini bertujuan untuk memodelkan SDS menggunakan RK dengan seleksi LASSO untuk pendugaan curah hujan dan membandingkannya dengan model regresi LASSO, RK dengan Analisis Komponen Utama (AKU) dan RK dengan forward selection.
Data yang digunakan dalam penelitian ini adalah data GCM yang dikeluarkan oleh Climate Forecast System Reanalysis (CFSR). Peubah yang digunakan adalah jumlah curah hujan bulanan (precipitation rate) sebagai peubah prediktor mulai dari Januari 2011 sampai dengan Desember 2019. Domain GCM yang digunakan adalah sejumah grid berbentuk persegi berukuran 9×9 grid (0.5°×0.5° untuk setiap grid) yang terletak pada -5oLS sampai dengan -9oLS dan 105oBT sampai dengan 110oBT. Data curah hujan lokal sebagai peubah respon yang dikeluarkan oleh Badan Meterologi, Klimatologi dan Geofisika (BMKG) periode Januari 2011 sampai dengan Desember 2019 di provinsi Jawa Barat. Stasiun hujan amatan di Jawa Barat yaitu di stasiun Bandung, stasiun Jatiwangi, stasiun Bogor dan stasiun Citeko.
Daerah Jawa Barat memiliki pola curah hujan monsunal yaitu satu kali rata-rata curah hujan bulanan tertinggi dan satu kali rata-rata curah hujan bulanan terendah. Curah hujan tertinggi terjadi pada bulan November hingga April dan terendah terjadi pada bulan Juni hingga Oktober untuk stasiun Bandung dan stasiun Jatiwangi. Curah hujan tertinggi dominan terjadi pada setiap bulan pada stasiun Bogor karena kondisi morfologi kabupaten Bogor sebagian besar berupa dataran tinggi, perbukitan dan pegunungan serta kondisi klimatologinya termasuk iklim tropis sangat basah. Curah hujan tertinggi terjadi pada bulan November hingga April dan curah hujan terendah terjadi pada bulan Mei dan September untuk stasiun Citeko.
Metode LASSO dan forward selection digunakan sebagai tahap pra-pemrosesan sebelum dilakukan pemodelan regresi kontinum. Metode ini mampu menyusutkan koefisien penduga tepat nol sehingga dapat melakukan seleksi peubah. Hal ini dapat meningkatkan akurasi dan interpretabilitas model dengan menghilangkan peubah prediktor yang tidak relevan dengan peubah respon. Penyeleksian peubah berdasarkan pemilihan nilai lambda yang optimum (λ_min). Peubah prediktor (p) yang digunakan merupakah hasil penyeleksian dari metode LASSO sehingga terdapat sebanyak h peubah prediktor dengan h<p. Peubah hasil seleksi LASSO digunakan dalam pemodelan regresi kontinum untuk setiap stasiun amatan. Evaluasi model regresi dilakukan dengan menghitung nilai RMSEP dan korelasi antara curah hujan aktual dengan curah hujan hasil prediksi. Model regresi yang dibandingkan adalah model regresi LASSO, RK dengan AKU dan RK dengan forward selection.
Pemodelan SDS menggunakan model RK dengan seleksi LASSO dan model RK dengan forward selection dapat digunakan untuk menduga curah hujan di Provinsi Jawa Barat. Hasilnya menunjukkan bahwa model RK dengan seleksi LASSO memberikan hasil dugaan yang cukup akurat untuk stasiun Jatiwangi (RMSEP=23,17 dan korelasi=0,99) dan stasiun Bogor (RMSEP=55,49 dan korelasi=0,83) dibandingkan dengan model regresi LASSO, RK dengan AKU dan RK dengan forward selection. Model RK dengan forward selection juga memberikan hasil dugaan yang cukup akurat dalam pendugaan curah hujan di stasiun Bandung (RMSEP=56,98 dan korelasi=0,90) dan stasiun Citeko (RMSEP=17,28 dan korelasi=0,99). Regresi kontinum dengan pra pemrosesan seleksi LASSO dan forward selection dapat meningkatkan presisi nilai prediksi curah hujan dibandingkan dengan model regresi LASSO dan regresi kontinum dengan AKU. Indonesia is located in a tropical region with high rainfall intensity, especially in the highlands. The frequency of rainfall can cause various extreme events that will impact the quality and quantity of agricultural production. Therefore, it is very important to estimate potential rainfall, especially in the agricultural sector. Rainfall is a source of water supply for plants, so to get information about rainfall Global Climate Models (GCM) data are used.
GCM data are related to the global scale climate system, so it is difficult to get local scale information to predict rainfall. The method of statistical downscaling (SDS) can be used to solve this problem. The SDS method is a method to estimate rainfall by linking global scale climate elements obtained from the Global Climate Models (GCM) output data with local scale climate elements from climatology station. The problem that commonly occurs in SDS is the occurrence of multicollinearity or spatial correlation between grids in the domain. One method that can overcome the multicollinearity problem is continuum regression (CR), but the problem in CR is that the number of observations is much smaller than the number of predictor variables (n≪p) so that a pre-processing method is needed in the form of selecting predictor variables. The method of selecting variables used is the Least Absolute Shrinkage and Selection Operator (LASSO) and forward selection method. This study aims to model SDS using CR with LASSO selection for rainfall estimation and to compare it with LASSO regression models, CR with Principle Component Analysis (PCA) and CR with forward selection.
The data used in this study is the GCM data released by the Climate Forecast System Reanalysis (CFSR). The variable used is the amount of monthly precipitation as a predictor variable from January 2011 to December 2019. The GCM domain used is a number of 9×9 grids (0.5°×0.5° for each grid) which is located at -5oLS to -9oLS and 105oBT to 110oBT. Local rainfall data as a response variable issued by the Badan Meterologi, Klimatologi dan Geofisika (BMKG) for the period January 2011 to December 2019 in West Java province. Observed rain stations in West Java are at Bandung station, Jatiwangi station, Bogor station and Citeko station.
The West Java region has a monsoonal rainfall pattern, namely one time the highest average monthly rainfall and one time the lowest average monthly rainfall. The highest rainfall occurs from November to April and the lowest occurs from June to October for Bandung station and Jatiwangi station. The highest dominant rainfall occurs every month at Bogor station because the morphological conditions of Bogor Regency are mostly in the form of highlands, hills and mountains as well as the climatological conditions including very wet tropical climates. The highest rainfall occurs in November to April and the lowest rainfall occurs in May and September for Citeko station.
The LASSO and forward selection method used as a pre-processing stage prior to CR modeling. This method is able to reduce the exact estimator coefficient to zero so that it can select variables. This can improve the accuracy and interpretability of the model by eliminating predictor variables that are not relevant to the response variables. Selection of variables based on selecting the optimum lambda value (λ_min). The predictor variable (p) used is the result of selection from the LASSO method so that there are h of predictor variables with h<p. The variables selected by LASSO are used in CR modeling for each observation station. Regression model evaluation was done by calculating the RMSEP value and the correlation between actual rainfall and predicted rainfall. The regression models that were compared were LASSO regression model, CR with PCA and CR with forward selection.
The SDS modeling using CR model with LASSO selection and CR model with forward selection can be used to predict rainfall in West Java province. The results show that the CR model with LASSO selection provides quite accurate prediction results for Jatiwangi (RMSEP=23,17 dan correlation=0,99) and Bogor stations (RMSEP=55,49 dan correlation=0,83) compared to the LASSO regression model, CR with PCA and CR with forward selection. The CR model with forward selection also provides quite accurate prediction results in predicting rainfall at Bandung (RMSEP=56,98 dan correlation=0,90) and Citeko stations (RMSEP=17,28 dan correlation=0,99). Continuum regression with pre-processing LASSO selection and forward selection can improve the precision of rainfall prediction compared to LASSO regression model and continuum regression with PCA.