Optimasi Peringkat Kepentingan Peubah terhadap Kepatuhan Social Distancing di Amerika Serikat dengan Algoritme Genetika
Abstract
Kebijakan social distancing saat ini menjadi metode terbaik untuk menahan laju penularan COVID-19, tetapi banyak masyarakat yang tidak patuh pada kebijakan tersebut. Penelitian ini menggunakan peubah respon berupa kategori skor kepatuhan social distancing yang diperkirakan dari data ponsel. Peubah penjelas merupakan data demografi dari 3054 county di Amerika Serikat. Dua belas peubah penjelas dievaluasi dengan tiga variable importance measurement (VIM): information value, information gain, dan symmetrical uncertainty. Ketiga metrik tersebut akan memberikan nilai bobot berupa tingkat kepentingan kepada 12 peubah penjelas lalu akan diurutkan peringkat dari bobot yang terbesar hingga terkecil. Algoritme genetika digunakan sebagai teknik optimasi pemeringkatan tiga metrik VIM tersebut. Algoritme genetika lebih efisien digunakan dalam pencarian solusi pada kasus yang fungsi tujuannya memiliki banyak optimum lokal dan banyak peubah keputusan yang dilibatkan. Evaluasi fungsi tujuan menggunakan nilai korelasi Spearman antara urutan peringkat dan nilai bobot pada masing-masing metrik VIM. Hasil optimasi urutan pemeringkatan kepentingan peubah menunjukkan bahwa peubah proporsi masyarakat tervaksinasi, median pendapatan rumah tangga, proporsi masyarakat telah sarjana, dan proporsi voting partai Republicans merupakan peubah yang menempati empat peringkat teratas Berdasarkan hasil akurasi pemodelan random forest, tujuh peubah peringkat tertinggi memiliki pengaruh besar terhadap model sehingga dapat diseleksi untuk dijadikan peubah dalam pemodelan. Social distancing policies are currently the best method of mitigating the spread of the COVID-19 pandemic. However, obedience to these policies vary widely on county level. This research uses the score category of social distancing obedience as response variable, that estimated from mobile phone data. This research also uses population-based demographics data of 3054 counties in the United States as explanatory variables. Twelve explanatory variables are evaluated with three different variable importance measurements (VIM): information value, information gain, and symmetrical uncertainty. This paper is using a genetic algorithm optimization approach to obtain the rank of the importance of the explanatory variables based on the three different VIMs. This method is more efficient in finding solutions in cases where the objective function has many local optimums and many decision variables are involved. Evaluation of the objective function is using the Spearman correlation value between the ranking order and the value of each VIM metric. The results of the variable importance rank optimization show that proportion of people vaccinated, median household income, proportion of people who have graduated college, and Republican Party election vote are variables that occupy the top four. Based on the accuracy of random forest modeling, the seven highest ranking variables have a major influence on the model so that they can be selected to be used as variables in the modeling.