Title: Time Series Clustering and Multi-Input Transfer Function Model for Covid-19 Incidences in Jakarta
Authors: Notodiputro, Khairil Anwar
Erfiani, Erfiani
Yohansa, Meicheil
Issue Date: 2021
Publisher: IPB University
Abstract: The coronavirus, known as the Covid-19 virus, has become a global issue since this virus was first identified in December 2019 in Wuhan, China. This virus is not only disrupting the medical order but also affecting socio-economic conditions around the world. To date, only six countries worldwide have recorded zero cases of Covid-19. The massive spread of the virus caused 3.17 million people to be infected within 20 months, with 83,000 deaths. Indonesia is one of the countries with a very high spread of Covid-19 cases. The positive rate for Covid-19 cases in Indonesia in July 2021 reached 23% or almost five times the standard set by WHO. This condition has brought various handling reactions to curb the spread of Covid-19 in Indonesia, starting from the imposition of restrictions on community activities, accelerating the distribution of vaccinations, and scientifically data-based studies in handling Covid-19 in Indonesia. Seeing the very high rate of spread of Covid-19 cases in Indonesia, this does not escape the contribution of Covid-19 cases in 34 provinces. Several provinces recorded the highest cases, including Jakarta, West Java, Central Java, East Java, and South Sulawesi. Based on the Covid-19 handling task force data, among the five provinces, it was noted that Jakarta was the province with the highest Covid-19 incidence in Indonesia. The incidence of Covid-19 in DKI Jakarta reached 1.91% and contributed 25% for national cases. This situation is critical considering that DKI Jakarta is the center of the economy and should be a role model for other provinces regarding handling Covid-19 cases in Indonesia. The study of Covid-19 spread in Jakarta is necessarily considered due to the high mobilization of the community in Jakarta so that the policies that can be taken are right on target. The research carried out in this study was based on daily data on Covid-19 cases in DKI Jakarta, which were recorded at the sub-district level, even at the village level. Based on the daily data recording, this study aims to classify sub-districts in Jakarta based on the similarity in the distribution pattern of Covid-19 cases. The grouping of these sub-districts is carried out through a hierarchical time series cluster analysis. The hierarchical time-series clustering analysis was carried out by calculating the distance between two sub-districts from 44 sub-districts in Jakarta. Distance calculation is done using Dynamic Time Warping technique. Calculating the distance between two sub-districts will produce a distance matrix measuring 44×44 which is the basis for hierarchical clustering. The two districts with the minimum distance will be combined in a temporary cluster, and the distance matrix will be evaluated to 43×43. This process is carried out until only one cluster is formed. Evaluation of the distance matrix is done through the average linkage method. The results of this study classify 44 districts in DKI Jakarta into six optimal clusters based on the size of the Silhouette coefficient. The six clusters provide several unique characteristics that can be used as one of the keywords in formulating policies for handling Covid-19 cases in Jakarta. The characteristics formed include that cluster A has the highest distribution rate and directly adjacent districts to areas outside Jakarta. The cluster with the lowest distribution of cases is cluster F, a particular cluster for the Kepulauan Seribu. Cluster B and Cluster E are two clusters whose members come from South Jakarta and Central Jakarta, respectively. The clustering results are then modeled using the ARIMA model to predict daily Covid-19 cases at the cluster level. The results of the cluster level modeling produce six ARIMA models, namely ARIMA (5,1,6), ARIMA (3,1,2), ARIMA (5,1,5), ARIMA (4,1,6), ARIMA (5, 1,3), and ARIMA (4,1,9) for cluster A to cluster F, respectively. Cluster level modeling performance is measured by MAPE values and produces MAPE values ranging from 10% - 21%. Evaluation of cluster-based model is done by comparing the predicted value of cluster-based model with the predicted value of other models. The other models are the ARIMA model without clustering (non-cluster-based model) applied at the city level and the transfer function model applied at the provincial level. Comparing models at the city level provides a 5% - 6% MAPE difference against the model without clustering. Another comparison result at the provincial level concluded that the transfer function model had the best performance. However, the clustering process was still effective, with the MAPE value still in the excellent category.
Virus Corona atau dikenal sebagai virus Covid-19 menjadi tantangan global sejak pertama kali virus ini teridentifikasi pada Desember 2019 di Wuhan, China. Virus ini tidak hanya mengganggu tatanan medis, tetapi juga memengaruhi kondisi sosial-ekonomi di seluruh dunia. Hingga saat ini, sekitar hanya enam negara di seluruh dunia yang mencatatkan nol kasus Covid-19. Persebaran virus yang sangat masif menyebabkan 3,17 juta manusia terinfeksi dalam kurun waktu 20 bulan dengan 83.000 di antaranya meninggal dunia. Indonesia menjadi salah satu negara dengan persebaran kasus Covid-19 yang terbilang sangat tinggi. Angka laju positif untuk kasus Covid-19 di Indonesia pada Juli 2021 mencapai 23% atau hampir lima kali lipat dari standar yang ditetapkan WHO. Kondisi ini membawa berbagai reaksi penanganan untuk menahan laju persebaran Covid-19 di Indonesia, mulai dari pemberlakuan pembatasan kegiatan masyarakat, mempercepat distribusi vaksinasi, hingga kajian-kajian secara ilmiah berbasis data dalam penanganan Covid-19 di Indonesia. Melihat laju persebaran kasus Covid-19 di Indonesia yang sangat tinggi, tentunya hal ini tidak luput dari kontribusi kasus Covid-19 di 34 provinsi. Beberapa provinsi yang mencatatkan kasus tertinggi di antaranya DKI Jakarta, Jawa Barat, Jawa Tengah, Jawa Timur, dan Sulawesi Selatan. Berdasarkan data dari satuan tugas penanganan Covid-19, di antara kelima provinsi tersebut tercatat bahwa DKI Jakarta menjadi provinsi dengan insiden Covid-19 tertinggi di Indonesia. Insidensi Covid-19 di DKI Jakarta mencapai 1,91% serta menyumbang 25% untuk kasus nasional. Situasi ini menjadi genting mengingat bahwa DKI Jakarta sebagai sentral perekonomian dan semestinya menjadi percontohan bagi provinsi lain terkait penanganan kasus Covid-19 di Indonesia. Kajian terhadap persebaran kasus Covid-19 di DKI Jakarta dinilai sangat perlu mengingat mobilisasi masyarakat di DKI Jakarta yang sangat tinggi. Kajian yang dilakukan dalam penelitian didasarkan pada data harian kasus Covid-19 di DKI Jakarta yang tercatat hingga level kecamatan, bahkan kelurahan. Berdasarkan pencatatan data harian tersebut, penelitian ini hendak mengelompokkan kecamatan-kecamatan di Jakarta berdasarkan kemiripan pola persebaran kasus Covid-19. Pengelompokkan kecamatan-kecamatan tersebut dilakukan melalui analisis gerombol deret waktu berhirarki. Analisis gerombol deret waktu berhirarki dilakukan dengan penghitungan jarak antar dua kecamatan dari 44 kecamatan yang ada di Jakarta. Penghitungan jarak dilakukan menggunakan teknik Dynamic Time Warping. Penghitungan terhadap jarak antar dua kecamatan akan menghasilakn suatu matriks jarak berukuran 44×44 yang menjadi dasar penggerombolan berhirarki. Dua kecamatan dengan jarak paling minimum akan tergabung dalam satu gerombol sementara dan matriks jarak direvisi menjadi berukuran 43×43. Proses ini dilakukan hingga hanya terbentuk satu gerombol. Evaluasi terhadap matriks jarak yang terbentuk dilakukan melalui metode average linkage. Hasil penelitian ini mengelompokkan 44 kecamatan di DKI Jakarta ke dalam enam gerombol optimal berdasarkan ukuran koefisien Silhouette. Enam gerombol tersebut memberikan beberapa karakteristik khusus yang dapat digunakan sebagai salah satu kata kunci dalam perumusan kebijakan penanganan kasus Covid-19 di Jakarta. Karakteristik yang terbentuk di antaranya bahwa gerombol A merupakan gerombol dengan angka persebaran tertinggi dan cenderung beranggotakan kecamatan yang berbatasan langsung dengan wilayah di luar DKI Jakarta. Gerombol dengan persebaran kasus terendah adalah gerombol F yang merupakan gerombol khusus Kepulauan Seribu. Gerombol B dan gerombol E merupakan dua gerombol yang anggotanya cenderung berasal dari wilayah Jakarta Selatan dan Jakarta Pusat. Hasil penggerombolan ini selanjutnya dimodelkan menggunakan model ARIMA untuk melakukan prediksi kasus harian Covid-19 pada level gerombol. Hasil pemodelan level gerombol menghasilkan enam model ARIMA, yakni ARIMA (5,1,6), ARIMA (3,1,2), ARIMA (5,1,5), ARIMA (4,1,6), ARIMA (5,1,3), dan ARIMA (4,1,9) masing-masing untuk gerombol A hingga gerombol F berturut-turut. Performa pemodelan level gerombol diukur melalui nilai MAPE dan menghasilkan nilai MAPE yang berkisar antara 10% - 21%. Evaluasi terhadap pemodelan level gerombol dilakukan dengan membandingkan nilai prediksi pemodelan level gerombol dengan nilai prediksi model lain. Model lain yang dimaksud adalah model ARIMA tanpa penggerombolan yang diterapkan pada level kota dan model fungsi transfer yang diterapkan pada level provinsi. Perbandingan prediksi berdasarkan hasil penggerombolan yang diagregasikan ke level kota memberikan selisih MAPE sebesar 5% - 6% terhadap hasil prediksi model ARIMA tanpa penggerombolan. Nilai MAPE diperoleh berdasarkan perbandingan nilai prediksi terhadap nilai aktual. Hasil perbandingan lainnya yakni pada level provinsi menyimpulkan bahwa model fungsi transfer dengan tiga peubah input memiliki performa yang paling baik, namun proses penggerombolan tetap dikatakan efektif dengan nilai MAPE yang masih berada pada kategori baik. Peubah input yang digunakan adalah kasus Covid-19 di Bodetabek, data kontak erat, dan kasus kematian harian
