Pengembangan Model Propensity Score Matching pada Pemanfaatan Data Hasil Web Scraping untuk Perbaikan Statistik Resmi: Studi Kasus Tarif Kontrak Rumah
Abstract
Revolusi Industri 4.0 telah mempercepat perkembangan teknologi dan informasi, dengan big data menjadi salah satu teknologi kunci dalam era ini. Big data mengacu pada kumpulan data yang sangat besar dan kompleks. Badan Pusat Statistik (BPS) menyambut kehadiran big data sebagai upaya untuk meningkatkan kualitas, kelengkapan, dan kemutakhiran data statistik. Hal ini tertuang dalam rencana strategis BPS 2020-2024 yang menyoroti penggunaan teknologi informasi dan big data untuk mendukung statistik resmi.
Salah satu publikasi BPS yang bisa ditunjang dengan memanfaatkan big data yaitu angka inflasi. Angka inflasi dihimpun dari survei harga konsumen yang dikumpulkan di 90 kota inflasi setiap bulannya. Salah satu bagian dari survei harga konsumen adalah Survei HK-4 yang memuat tarif kontrak rumah. Selama ini tarif kontrak rumah yang dihasilkan oleh BPS dinilai underestimate atau di bawah keadaan yang sebenarnya. Hal ini bisa dilihat berdasarkan data BPS kenaikan tarif kontrak rumah di kota-kota inflasi di Indonesia dalam kurun waktu 5 tahun terakhir mengalami kenaikan yang sangat lambat.
Penelitian ini memanfaatkan big data untuk memperbaiki statistik resmi yang diduga underestimate. Perbaikan statistik resmi (tarif kontrak rumah) dalam penelitian ini dilakukan dengan menggunakan hasil web scraping dari situs sewa rumah. Proses perbaikan tarif kontrak rumah dilakukan dengan matching data statistik resmi (kelompok perlakuan) dengan data hasil web scraping (kelompok kontrol) dengan menggunakan Propensity Score Matching (PSM). PSM terdiri dari dua tahap utama: pendugaan nilai propensity score dan penentuan algoritma matching. Beberapa metode yang dapat digunakan untuk pendugaan nilai propensity score antara lain regresi logistik, random forest, dan neural network. Berdasarkan penelitian ketiga metode tersebut menghasilkan performa yang bagus dalam menyeimbangkan kovariat antara kelompok perlakuan dan kontrol. Tahap selanjutnya yaitu menentukan algoritma matching. Penelitian ini menggunakan beberapa algoritma matching yaitu: nearest neighbor matching, optimal matching, dan genetic matching. Menggunakan metode matching dengan dan tanpa pengembalian serta menggunakan rasio matching 1:1 hingga 1:5.
Tujuan penelitian ini adalah mencari model matching terbaik dengan menggunakan Propensity Score Matching (PSM) untuk perbaikan statistik resmi yang dinilai underestimate, dengan mengkombinasikan beberapa metode pendugaan nilai propensity score serta menggunakan beberapa algoritma matching. Selain itu, penelitian ini juga bertujuan menghitung tarif kontrak terkoreksi berdasarkan hasil matching terbaik.
Penerapan Propensity Score Matching (PSM) dalam melakukan matching data antara data BPS dengan data hasil web scraping situs sewa rumah memberikan hasil yang cukup memuaskan. Hal ini terlihat dari banyaknya kovariat seimbang dan nilai PBR yang tinggi. Penelitian ini menunjukkan bahwa pendugaan nilai propensity score menggunakan regresi logistik, random forest, dan neural network efektif dalam menyeimbangkan kovariat, akan tetapi regresi logistik menunjukkan performa terbaik dalam hal PBR (Percent Bias Reduction). Selain itu algoritma nearest neighbor dan genetic matching memiliki kemampuan yang setara, namun nearest neighbor matching menghasilkan PBR yang lebih baik. Penggunaan PSM dengan pengembalian menghasilkan kovariat seimbang lebih banyak dibandingkan tanpa pengembalian. Model dengan rasio 1:1 pada penelitian ini menghasilkan PBR yang lebih tinggi dibandingkan dengan rasio lainnya.
Tarif kontrak yang telah terkoreksi secara keseluruhan jauh lebih tinggi dibandingkan tarif kontrak resmi. Pada bulan September dan Oktober 2023, tarif kontrak terkoreksi untuk DKI Jakarta yaitu sebesar Rp1,705 juta per bulan (terkoreksi 87,27%), Bandung sebesar Rp1,737 juta per bulan (terkoreksi 316,15%), dan Semarang Rp935 ribu per bulan (terkoreksi 60,04%). Tarif kontrak terkoreksi di Bandung lebih tinggi dibandingkan DKI Jakarta, berbeda dengan tarif resmi di mana DKI Jakarta tertinggi. Perbedaan ini kemungkinan disebabkan oleh kecenderungan rumah yang diunggah pada situs sewa rumah di Bandung didominasi oleh rumah-rumah mewah, sementara rumah biasa relatif sedikit. Selain itu, hasil matching di Bandung menunjukkan tingkat kemiripan 88,24%, berbeda dengan DKI Jakarta dan Semarang yang mendekati 100%. Hal ini berdampak pada tarif kontrak yang lebih tinggi di Bandung, sehingga penggunaan tarif kontrak terkoreksi di Bandung perlu kehati-hatian karena adanya ketidaklaziman pada hasil matching. The Industrial Revolution 4.0 has accelerated the development of technology and information, with big data becoming one of the key technologies in this era. Big data refers to a vast and complex collection of data. The Central Statistics Agency (BPS) welcomes the presence of big data as an effort to improve the quality, completeness, and timeliness of statistical data, as stated in the BPS 2020-2024 strategic plan, which highlights the use of information technology and big data to support official statistics.
One of BPS's publications that big data can support is the inflation rate. The inflation rate is collected from a monthly consumer price survey conducted in 90 inflation cities. One part of the consumer price survey is the HK-4 Survey, which contains housing contract rates. So far, the housing contract rates produced by BPS have been considered underestimated or below the actual situation. Based on BPS data, the increase in housing contract rates in cities and inflation in Indonesia over the last five years has been very slow.
This study uses big data to improve official statistics suspected of being underestimated. This study's official statistics (house contract rates) were improved using web scraping results from house rental sites. The process of enhancing house contract rates was carried out by matching official statistical data (treatment group) with web scraping data (control group) using Propensity Score Matching (PSM). PSM consists of two main stages: estimating the propensity score value and determining the matching algorithm. Several methods can be used to estimate the propensity score value, including logistic regression, random forest, and neural networks. Research shows that the three methods balance covariates between the treatment and control groups. The next stage is to determine the matching algorithm. This study uses several matching algorithms: nearest neighbor matching, optimal matching, and genetic matching. Matching methods with and without replacement and a matching ratio of 1: 1 to 1: 5.
This study aims to find the best matching model using Propensity Score Matching (PSM) to improve official statistics that are considered underestimated by combining several propensity score estimation methods and using several matching algorithms. In addition, this study also aims to calculate the corrected contract rate based on the best matching results.
The application of Propensity Score Matching (PSM) in matching data between BPS data and data obtained from web scraping rental housing websites has yielded entirely satisfactory results, as can be seen from many balanced covariates and high PBR values. This study demonstrates that logistic regression, random forest, and neural networks effectively balance covariates when estimating propensity scores. However, logistic regression shows the best performance in terms of Percent Bias Reduction (PBR). In addition, the nearest neighbor and genetic matching algorithms have equivalent capabilities, but nearest neighbor matching produces better PBR. The use of PSM with returns produces more balanced covariates than without returns. This study's model with a 1:1 ratio creates a higher PBR than other ratios.
The corrected rental rates are overall significantly higher than the official rental rates. In September and October 2023, the corrected rental rate for DKI Jakarta was Rp1.705 million per month (an increase of 87.27%), for Bandung Rp1.737 million per month (an increase of 316.15%), and for Semarang Rp935 thousand per month (an increase of 60.04%). The corrected rental rates in Bandung were higher than in Jakarta, contrasting with the official rates where Jakarta had the highest values. This difference is likely caused by the tendency for luxury homes to dominate the rental property listings in Bandung, while regular homes are relatively few. Additionally, the matching results for Bandung show a similarity rate of 88.24%, which differs from DKI Jakarta and Semarang, where the rates are close to 100%. As a result, rental rates in Bandung are higher; using corrected rental rates in the area requires caution due to the irregularities in the matching results.