Kajian Deteksi Anomali Indeks Kualitas Udara Jakarta Dengan Long Short-Term Memory dan Extreme Gradient Boosting
Date
2025Author
Nurhambali, Muhammad Rizky
Angraini, Yenni
Fitrianto, Anwar
Metadata
Show full item recordAbstract
Salah satu kasus lingkungan yang memungkinkan adanya anomali adalah indeks kualitas udara (IKU). IKU dapat berubah secara drastis seperti saat pandemi. Pembatasan kegiatan manusia saat pandemi maupun faktor meteorologi, seperti hujan dan angin menyebabkan langit Jakarta menjadi cerah dan menyebabkan masyarakat lebih peduli tentang kasus pencemaran udara. IKU yang dicatat dalam rentang waktu menjadikan data IKU sebagai data deret waktu. Oleh karena itu, untuk melakukan deteksi anomali harus dilakukan dengan pendekatan deret waktu.
Pendeteksian anomali pada deret waktu berkembang pesat dari metode konvensional hingga machine learning. Namun, metode machine learning dianggap lebih unggul karena kemampuannya dalam menangani data kompleks, dan nonlinear, serta dapat mengabaikan asumsi yang ada pada metode konvensional. Metode machine learning yang banyak berkembang antara lain long short-term memory (LSTM) dan extreme gradient boosting (XGBoost). Kedua metode terkenal akan kemampuannya dalam menangani berbagai kondisi data deret waktu. Akan tetapi, faktor-faktor yang memengaruhi keakuratan metode belum banyak dikaji dalam penelitian. Oleh karena itu, penelitian ini bertujuan untuk mengkaji kinerja LSTM dan XGBoost melalui kajian empiris dan simulasi, mengidentifikasi faktor meteorologi yang memengaruhi keberadaan anomali, dan mengidentifikasi faktor-faktor yang memengaruhi keakuratan kedua metode pada data IKU Jakarta melalui beragam skenario.
Penelitian ini menggunakan data IKU Jakarta yang bersumber pada AirNow (www.airnow.gov) sebagai peubah respons dan data meteorologi berupa kelembapan, angin, dan suhu yang bersumber pada NASA Power (https://power.larc.nasa.gov/data-access-viewer/) sebagai peubah penjelas. Data tersebut merupakan data per jam menggunakan zona waktu Indonesia bagian barat (WIB / GMT+7) dengan periode 1 Januari 2018 pukul 00:00 s.d. 31 Desember 2023 pukul 23:00. Data IKU Jakarta dilabelkan dengan moving range (MR) dan dikombinasikan dengan aturan sigma. IKU Jakarta divalidasi dengan LSTM dan XGBoost lalu dilakukan klasifikasi anomali dengan ambang batas sisaan hasil validasi.
Kajian data empiris menunjukkan LSTM sebagai metode yang lebih baik dan sesuai dibandingkan dengan XGBoost. Meskipun kajian data empiris menambahkan feature engineering pada kedua metode, hasil yang diperoleh masih menunjukkan metode LSTM sebagai metode terbaik meskipun ada penurunan nilai metrik evaluasi yang digunakan. Oleh karena itu, kombinasi MR (2), 4-sigma, dan tanpa feature engineering pada LSTM merupakan kombinasi terbaik untuk deteksi anomali IKU Jakarta pada data empiris dengan rata-rata MAPE 10,3840% dan RMSE 10,5913 pada hasil validasi, serta balanced accuracy 0,9424 pada hasil klasifikasi. Hasil deteksi menunjukkan LSTM lebih baik dalam menangkap perubahan nilai ekstrem pada data, sementara XGBoost lebih baik dalam menangkap nilai ekstrem data. Anomali IKU Jakarta banyak terdeteksi pada pukul 21:00 s.d. 09:00 dan pada musim hujan (November-Maret). Aktivitas manusia dan faktor meteorologi curah hujan, kelembapan, dan angin ikut memengaruhi keberadaan anomali.
Kajian simulasi menunjukkan hasil yang sejalan dengan kajian empiris, yaitu metode LSTM superior dibandingkan dengan XGBoost. LSTM memiliki nilai MAPE (14,7024%) dan RMSE (13,9909) yang lebih rendah, serta balanced accuracy (0,9935) lebih tinggi. Bahkan, nilai metrik terburuk dari LSTM tidak pernah lebih rendah dibandingkan nilai metrik terburuk pada XGBoost. Kajian simulasi menunjukkan faktor yang memengaruhi keakuratan metode berupa panjang periode data, cara pelabelan, dan jumlah anomali. Hasil tersebut diperkuat dengan uji non-parametrik Mann-Whitney dan Kruskal-Wallis yang signifikan pada kombinasi metode dengan faktor yang dicobakan. LSTM memiliki kinerja lebih baik dengan periode data yang panjang, sementara XGBoost untuk periode pendek. Hal ini diakibatkan perbedaan arsitektur di antara kedua metode, di mana LSTM memiliki sel memori yang mampu mengingat informasi berurutan layaknya jaringan syaraf. Namun, kedua metode menunjukkan hasil sejalan pada penambahan anomali pada data, yaitu mengalami penurunan kinerja seiring peningkatan jumlah anomali. One environmental case that allows for anomalies is the air quality index (AQI). The AQI can change drastically, such as during a pandemic. Restrictions on human activities during a pandemic and meteorological factors, such as rain and wind, cause Jakarta's skies to clear, and cause people to be more concerned about air pollution. AQIs that are recorded over a span of time make AQI data a time series. Therefore, anomaly detection must be performed with a time series approach.
Anomaly detection in time series rapidly evolves from conventional methods to machine learning. However, machine learning methods are considered superior due to their ability to handle complex, nonlinear data and can ignore assumptions in conventional methods. Machine learning methods that have been widely developed include long short-term memory (LSTM) and extreme gradient boosting (XGBoost). Both methods are well-known for their ability to handle various conditions of time series data. However, the factors that affect the accuracy of the methods have not been widely studied. Therefore, this study aims to assess the performance of LSTM and XGBoost, identify factors that influence the presence of anomalies, and identify factors that affect the accuracy of both methods on Jakarta AQI data through various scenarios.
This study uses Jakarta's AQIs data sourced from AirNow (www.airnow.gov) as response variables and meteorological data in the form of humidity, wind, and temperature sourced from NASA Power (https://power.larc.nasa.gov/data-access-viewer/) as explanatory variables. The data is hourly data using the western Indonesian time zone (WIB / GMT+7) with a period from January 1, 2018, at 00:00 to December 31, 2023, at 23:00. The Jakarta AQIs data is labeled with a moving range (MR) and combined with the sigma rule. IKU Jakarta is validated with LSTM and XGBoost, and then anomaly classification is carried out with the threshold of the validation results.
The empirical data study shows LSTM as a more suitable method than XGBoost. Although the empirical data study added feature engineering to both methods, the results still showed the LSTM method as the best method despite the decrease in the evaluation metrics' value. Therefore, the combination of MR (2), 4-sigma, and no feature engineering on LSTM is the best combination for anomaly detection of AQIs Jakarta in empirical data with an average MAPE of 10.3840% and RMSE of 10.5913 in validation results, and balanced accuracy of 0.9424 in classification results. The detection results show that LSTM is better at capturing extreme value changes in the data, while XGBoost is better at capturing extreme data values. Anomalies in Jakarta's AQI are mostly detected at 21:00 to 09:00 and during the rainy season (November-March). Human activities and meteorological factors of rainfall, humidity, and wind also influence the presence of anomalies.
The simulation study shows results that align with the empirical study, namely that the LSTM method is superior to XGBoost. LSTM has lower MAPE (14.7024%) and RMSE (13.9909) values, and higher balanced accuracy (0.9935). The worst metric value of LSTM is never lower than the worst metric value of XGBoost. Simulation studies show that the factors that affect the method's accuracy are the length of the data period, the labeling method, and the number of anomalies. These results are reinforced by the non-parametric Mann-Whitney and Kruskal-Wallis tests, which are significant in the combination of the method and the factors tested. LSTM performs better with long data periods, while XGBoost performs better with short periods. This is due to the difference in architecture between the two methods, where LSTM has memory cells that can remember sequential information like a neural network. However, both methods showed similar results when anomalies were added to the data, which decreased performance as the number of anomalies increased.
