Identifikasi Tingkat Kepentingan Peubah Kejadian Rawan Pangan untuk Sub-Populasi pada Model Pembelajaran Mesin Random Forest
Abstract
Big Data dikenal dengan data yang berukuran besar, kecepatan tinggi, dan bentuknya beraneka ragam yang dalam proses analisisnya memerlukan teknik machine learning. Salah satu model machine learning adalah random forest yang dapat menghasilkan kinerja akurasi yang lebih baik dibandingkan beberapa algoritma lainnya karena merupakan metode ensemble tree yang pembentukannya merupakan gabungan beberapa pohon klasifikasi. Tantangan dari teknik machine learning adalah kecenderungan menghasilkan model black box. Seiring dengan adanya kebutuhan informasi terkait model black-box, sehingga memunculkan metode-metode baru untuk melakukan interpretasi terhadap model tersebut.
Metode interpretasi yang populer digunakan adalah Permutation Feature Importance (PFI) berbasis pohon klasifikasi dan Shapley Additive exPlanations (SHAP). Kedua interpreter ini memiliki algoritma perhitungan tingkat kepentingan peubah yang berbeda. SHAP lebih menekankan pada atribusi peubah serta memberikan informasi lokal atau informasi dari suatu individu. SHAP dapat menggambarkan pengaruh setiap prediktor untuk memperoleh dugaan suatu individu. Tingkat kepentingan peubah metode PFI berdasarkan skor kepentingan yang berasal dari tingkat kesalahan model asli. Penelitian ini bertujuan untuk mengidentifikasi peubah penting pada setiap sub-populasi (perdesaan dan perkotaan). Algoritma random forest diimplementasikan untuk menghasilkan model menggunakan dataset seluruh rumah tangga dan dataset masing-masing sub-populasi. Analisis lanjutan dilakukan dengan menerapkan metode PFI pada dataset setiap sub-populasi dan metode SHAP diterapkan pada ketiga dataset.
Data yang digunakan merupakan data kejadian rawan pangan berdasarkan Susenas KOR Maret 2020 provinsi Jawa Barat. Terdapat tiga tahapan analisis data, yaitu penyiapan data, pembentukan model klasifikasi, dan interpretasi model klasifikasi. Gugus data pada penelitian ini dibagi menjadi data latih dan data uji dengan perbandingan 70:30 pada dataset rumah tangga perdesaan, dataset rumah tangga perkotaan dan dataset seluruh rumah tangga, selanjutnya melakukan penyeimbangan data menggunakan teknik SMOTE pada masing-masing dataset tersebut. Pembentukan model klasifikasi masing-masing dataset dilakukan pada data yang telah seimbang dengan menggunakan hiperparameter optimum. Pada metode PFI interpretasi ditampilkan melalui error barchart, sedangkan interpretasi SHAP ditampilkan melalui SHAP summary plot.
Metode PFI pada perdesaan menghasilkan dua belas peubah penting, yaitu luas lantai, pendidikan KRT, jumlah penabung, sanitasi layak, jenis lantai, akses internet, sumber air minum, aset tanah, air minum layak, PBI BPJS, bahan bakar masak, dan jenis dinding. Metode SHAP untuk pemodelan yang menggunakan dataset rumah tangga perdesaan menghasilkan dua belas peubah penting. Peubah-peubah tersebut yaitu jumlah penabung, akses internet, jenis lantai, pendidikan KRT, aset tanah, sanitasi layak, luas lantai, air minum layak, sumber air minum, jenis dinding, bahan bakar masak, dan PBI BPJS. Metode SHAP untuk pemodelan yang menggunakan dataset seluruh rumah tangga menghasilkan sembilan peubah penting, yaitu aset tanah, jumlah penabung, akses internet, pendidikan KRT, jenis lantai, sanitasi layak, air minum layak, luas lantai, dan sumber air minum.
Metode PFI pada perkotaan menghasilkan sebelas peubah penting yaitu luas lantai, pendidikan KRT, jumlah penabung, aset tanah, sumber air minum, akses internet, air minum layak, sanitasi layak, jenis lantai, PBI BPJS, dan jenis atap. Metode SHAP pada model rumah tangga perkotaan dan model menggunakan seluruh rumah tangga menghasilkan sembilan peubah penting yaitu aset tanah, jumlah penabung, pendidikan KRT, akses internet, air minum layak, luas lantai, sumber air minum, jenis lantai, dan sanitasi layak. Big Data is known for large data, high speed, and various forms which in the analysis process require Machine Learning techniques. One of the Machine Learning models is a random forest which can produce better accuracy performance than some other algorithms because it is an ensemble tree method whose formation is a combination of several classification trees. The challenge of Machine Learning techniques is the tendency to produce black-box models. Along with the need for information related to the black-box model, giving rise to new methods for interpreting the model.
Popular interpretation methods used are Permutation Feature Importance (PFI) based on classification trees and Shape Additive ExPlanations (SHAP). These two interpreters have different algorithms for calculating the importance of variables. SHAP emphasizes the attribution of variables and provides local information or information from an individual. SHAP can describe the effect of each predictor to obtain an individual's guess. Meanwhile, the level of importance of the PFI variable is based on the importance score derived from the error rate of the original model. This study aims to identify the important variables in each sub-population (rural and urban areas). A random forest algorithm was implemented to generate the model using the entire household dataset and the dataset for each sub-population. Further analysis was carried out by applying the PFI method to the dataset of each sub-population and the SHAP method to the two types of data.
West Java province regarding the incidence of food insecurity. There are three stages of data analysis, namely data preparation, classification model formation, and classification model interpretation. The data cluster in this study was divided into training data and test data with a ratio of 70:30 on the rural household dataset, urban household dataset, and the entire household dataset, then balanced the data using SMOTE on each of these datasets. The formation of the classification model for each dataset is carried out on balanced data using optimum hyperparameters. The PFI interpretation method uses an error bar chart, and the SHAP interpretation method uses a SHAP plot summary.
The PFI method in rural areas produces twelve importance variables, namely house size, education of household head, number of saver, decent sanitation, floor type, internet access, drinking water sources, land assets, drinking water source, BPJS PBI, cooking fuel, and wall types. The SHAP method for modeling using a rural household dataset yields twelve important variables. These variables are the number of savers, internet access, floor types, education of household head, land assets, decent sanitation, house size, decent drinking water, drinking water sources, type of wall, cooking fuel, and PBI BPJS. The SHAP method for modeling a whole household dataset yields nine important variables. These variables are land assets, a number of savers, internet access, education of household head, floor type, proper sanitation, proper drinking water, house, and drinking water sources.
The PFI method in urban areas produces eleven important variables: house size, education of household head, number of savers, land assets, drinking water sources, internet access, decent drinking water, decent sanitation, floor types, PBI BPJS, and roof types. Meanwhile, the SHAP method for urban households and all households produces nine important variables, namely land assets, number of savers, education of household head, internet access, decent drinking water, house size, drinking water sources, floor types, and decent sanitation.