View Item 
      •   IPB Repository
      • Dissertations and Theses
      • Master Theses
      • MT - Mathematics and Natural Science
      • View Item
      •   IPB Repository
      • Dissertations and Theses
      • Master Theses
      • MT - Mathematics and Natural Science
      • View Item
      JavaScript is disabled for your browser. Some features of this site may not work without it.

      Karakteristik Metode Machine Learning-based Univariate Time Series Imputation dalam Menduga Data Hilang

      Thumbnail
      View/Open
      Cover (673.4Kb)
      Fulltext (1.957Mb)
      Lampiran (1.051Mb)
      Date
      2024
      Author
      Ramadhani, Dini
      Soleh, Agus Mohamad
      Erfiani
      Metadata
      Show full item record
      Abstract
      Permasalahan data hilang pada data deret waktu sering kali menjadi tantangan dalam analisis. Hal ini dikarenakan dapat menciptakan ketidakpastian dalam pemahaman terhadap pola dan tren data seiring waktu. Penanganan yang tidak tepat terhadap nilai yang hilang dapat mengakibatkan kesimpulan yang tidak akurat atau model yang kurang tepat. Hal ini terutama terjadi jika terdapat pola kehilangan nilai yang signifikan dan berurutan, yang dapat mengurangi efisiensi dan validitas hasil. Pemilihan metode yang tepat sangat penting dalam mengisi nilai yang hilang. Data hilang secara berurutan dalam data deret waktu univariat menjadi tantangan besar karena sifat temporalnya. Hal ini dapat ditanggani dengan metode Machine Learning-based Univariate Time Series Imputation (MLBUI). MLBUI telah dikembangkan untuk mengatasi data hilang secara berturut dalam data deret waktu univariat. Tujuan dari penelitian ini yaitu mempelajari karakteristik dari metode MLBUI pada kasus data hilang untuk data model Autoregressive Integrated Moving Average (ARIMA) dan data aktual. Langkah-langkah yang diambil untuk mencapai tujuan ini, meliputi: pengembangan program untuk metode MLBUI dan mempelajari karakteristiknya dengan membandingkan kinerja dengan metode Kalman StructTS, Kalman Auto-ARIMA, Interpolasi Spline, Interpolasi Stine, dan Moving Average. Program MLBUI memiliki dua algoritma yaitu Random Forest Regression (RFR) dan Support Vector Regression (SVR) dengan kernel Radial yang diterapkan pada matriks Db (data sebelum nilai hilang) dan Da (data setelah nilai hilang). Penyetelan parameter metode RFR dan SVR pada penelitian ini dilakukan dengan grid search menggunakan 5-fold cross validation. Algoritma RFR menggunakan fungsi train dari paket caret sedangkan algoritma SVR menggunakan fungsi tune.svm dari paket e1071. Parameter RFR yang digunakan yaitu mtry dengan nilai 1 dan 2 serta ntrees dengan nilai 50, 75, dan 100. Parameter SVR yang digunakan yaitu cost dengan nilai 0.001, 0.01, 0.1, dan 10 serta gamma dengan nilai 0.001, 0.01, 0.1, dan 10. Berbagai faktor dipertimbangkan dalam penelitian ini. Faktor-faktor tersebut yaitu pola deret waktu, pola data yang hilang, dan jumlah data hilang. Penelitian ini mengeksplorasi kinerja MLBUI dalam dataset simulasi ARIMA dan data aktual yang tidak diketahui karakteristik datanya. Skenario data simulasi yang digunakan dalam penelitian ini menggunakan model Autoregressive (AR), Moving Average (MA), Autoregressive Moving Average (ARMA), Autoregressive Integrated Moving Average (ARIMA). Rincian dari model-model tersebut yaitu AR(1), AR(2), MA(1), MA(2), ARMA(1,1), ARMA(2,2), ARIMA(1,1,1), dan ARIMA(1,2,1). Data simulasi tersebut dibangkitkan dengan simpangan baku yang berbeda yaitu sebesar 0.5, 1, dan 2. Data aktual yang digunakan yaitu data suhu rata-rata dari Kabupaten Bogor yang diambil dari laman Badan Meteorologi, Klimatologi, dan Geofisika (BMKG). Tahap pertama yaitu pembangkitan data simulasi dan pengambilan data aktual yang memiliki deret lengkap. Tahap berikutnya yaitu data simulasi dilakukan skenario data hilang sedangkan data aktual dilakukan eksplorasi data. Tahap selanjutya karakteristik data aktual tersebut dicari dengan menggunakan analisis ARIMA. Data aktual yang lengkap kemudian dilakukan skenario data hilang. Skenario data hilang yang digunakan di data aktual sama dengan skenario yang digunakan di data simulasi yaitu sebesar 6%, 10%, dan 14%. Data simulasi dan data aktual yang telah diskenariokan data hilangnya selanjutnya dilakukan imputasi data hilang. Data yang telah dilakukan imputasi kemudian dipelajari karakteristik dari metode MLBUI. Hasil dari penelitian ini yaitu metode MLBUI RFR secara individu menunjukkan kinerja yang sangat baik dengan rata-rata Mean Absolute Percentage Error (MAPE) sebesar 5.06%. Nilai MAPE MLBUI RFR tidak berbeda secara signifikan dibandingkan dengan metode terbaik lainnya (Interpolasi Stine dan Moving Average). Metode MLBUI RFR dapat dikatakan merupakan metode yang paling konsisten di antara metode lainnya, dengan standar deviasi sebesar 2.78. Hasil penelitian ini didapatkan juga bahwa metode MLBUI SVR menunjukkan posisi yang kurang kuat dengan rata-rata MAPE sebesar 9.32%. MLBUI SVR berada pada posisi kelima jika diurutkan dari yang terbaik. Konsistensi MLBUI SVR berada pada posisi keempat dengan standar deviasi sebesar 9.22. Hasil penelitian data aktual didapatkan nilai MAPE MLBUI RFR untuk skenario 6%, 10%, dan 14% secara berturut-turut sebesar 6.369%, 5.468%, dan 4.4765. Nilai-nilai MAPE ini lebih besar dari nilai MAPE metode Moving Average, Interpolasi Stine, Kalman StrucTS, dan Kalman Auto-ARIMA. Hal ini dapat dikatakan bahwa metode MLBUI RFR pada data aktual kinerjanya tidak lebih baik dari pada metode-metode tersebut. Nilai MAPE MLBUI SVR untuk skenario 6%, 10%, dan 14% secara berturut-turut sebesar 8.274, 6.071, dan 4.779. Nilai-nilai MAPE MLBUI SVR ini merupakan nilai yang paling besar dibandingkan metode lainnya sehingga dapat dikatakan metode MLBUI SVR merupakan metode terburuk pada data aktual. Temuan penelitian menunjukkan bahwa kinerja MLBUI pada data simulasi ARIMA menurun dengan peningkatan jumlah data yang hilang atau simpangan baku. Penurunan kinerja yang terjadi pada metode MLBUI lebih kecil dibandingkan dengan metode lainnya. MLBUI RFR berkinerja baik pada data stasioner tetapi kurang efektif pada data yang tidak stasioner. Hasil analisis data aktual didapatkan bahwa kinerja MLBUI pada data aktual kurang efektif. Hal ini dikarenakan data aktual memiliki pola tren. Data aktual ini tidak stasioner terhadap rata-rata maupun variansi. Kesimpulan ini selaras dengan hasil dari analisis pada data simulasi. Hasil analisis pada data aktual juga menunjukkan bahwa kinerja metode MLBUI sedikit melebihi Interpolasi Spline. Secara individu metode MLBUI menunjukkan kemampuan yang dapat diandalkan, dengan nilai MAPE di bawah 10%. Hal-hal tersebut menunjukkan bahwa metode MLBUI tetap menjadi pilihan yang layak untuk mengatasi masalah data hilang secara berturut.
       
      The issue of missing data in time series data often presents a significant challenge in analysis. This is because it can create uncertainty in understanding the patterns and trends within the data over time. Improper handling of missing values can lead to inaccurate conclusions or less reliable models. This is especially problematic when there are significant and consecutive patterns of missing data, which can reduce the efficiency and validity of the results. Selecting the appropriate method to impute missing values is crucial. Sequential missing data in univariate time series poses a major challenge due to its temporal nature. This can be addressed using the Machine Learning-based Univariate Time Series Imputation (MLBUI) method. MLBUI has been developed to handle sequential missing data in univariate time series. The objective of this research is to study the characteristics of the MLBUI method in the case of missing data for Autoregressive Integrated Moving Average (ARIMA) models and actual data. The steps taken to achieve this objective include: first, developing a program for the MLBUI method; second, studying the characteristics of the MLBUI method by comparing its performance with the Kalman StructTS, Kalman Auto-ARIMA, Spline Interpolation, Stine Interpolation, and Moving Average methods. The MLBUI program incorporates two algorithms: Random Forest Regression (RFR) and Support Vector Regression (SVR) with a Radial kernel, applied to the Db and Da matrices. The parameter tuning for the RFR and SVR methods in this study was performed using grid search with 5-fold cross validation. The RFR algorithm uses the train function from the caret package, while the SVR algorithm uses the tune.svm function from the e1071 package. The RFR parameters used were mtry with values of 1 and 2, and ntrees with values of 50, 75, and 100. The SVR parameters used were cost with values of 0.001, 0.01, 0.1, and 10, and gamma with values of 0.001, 0.01, 0.1, and 10. Various factors were considered in this research. These factors include the time series pattern, the missing data pattern, and the amount of missing data. This study explores the performance of MLBUI on simulated ARIMA datasets and actual data whose characteristics are unknown. The simulation scenarios used in this research involve Autoregressive (AR), Moving Average (MA), Autoregressive Moving Average (ARMA), and Autoregressive Integrated Moving Average (ARIMA) models. The details of these models are AR(1), AR(2), MA(1), MA(2), ARMA(1,1), ARMA(2,2), ARIMA(1,1,1), and ARIMA(1,2,1). These simulated data were generated with different standard deviations, specifically 0.5, 1, and 2. The actual data used is the average temperature data from Bogor Regency, obtained from the website of the Badan Meteorologi, Klimatologi, dan Geofisika (BMKG). The first stage involves generating simulated data and collecting actual data that has a complete time series. The next stage involves applying missing data scenarios to the simulated data, while the actual data is explored. The characteristics of the actual data are then analyzed using ARIMA analysis. The complete actual data is then subjected to missing data scenarios. The missing data scenarios applied to the actual data are the same as those used in the simulated data, specifically 6%, 10%, and 14%. The simulated and actual data that have been subjected to missing data scenarios are then imputed. The characteristics of the MLBUI method are then studied using the imputed data. The results of this study show that the MLBUI RFR method individually demonstrates very good performance, with an average Mean Absolute Percentage Error (MAPE) of 5.06%. The MAPE of MLBUI RFR is not significantly different from the best other methods (Stine Interpolation and Moving Average). The MLBUI RFR method can be considered the most consistent among the other methods, with a standard deviation of 2.78. The study also found that the MLBUI SVR method showed weaker performance, with an average MAPE of 9.32%. MLBUI SVR ranks fifth when ordered from best to worst. The consistency of MLBUI SVR ranks fourth, with a standard deviation of 9.22. The results of the actual data analysis showed that the MAPE of MLBUI RFR for the 6%, 10%, and 14% scenarios were 6.369%, 5.468%, and 4.4765%, respectively. These MAPE values are higher than those of the Moving Average, Stine Interpolation, Kalman StructTS, and Kalman Auto-ARIMA methods. This indicates that the performance of the MLBUI RFR method on actual data is not better than those methods. The MAPE of MLBUI SVR for the 6%, 10%, and 14% scenarios were 8.274%, 6.071%, and 4.779%, respectively. These MAPE values are the highest among the other methods, indicating that the MLBUI SVR method performed the worst on actual data. The findings of the study indicate that the performance of MLBUI on ARIMA simulated data decreases with an increase in the amount of missing data or standard deviation. The performance degradation of the MLBUI method is smaller compared to other methods. MLBUI RFR performs well on stationary data but is less effective on non-stationary data. The results of the actual data analysis revealed that the performance of MLBUI on actual data is less effective. This is because the actual data exhibits a trend pattern and is non stationary in both mean and variance. This conclusion aligns with the results from the simulated data analysis. The analysis of actual data also showed that the performance of the MLBUI method slightly exceeds that of Spline Interpolation. Individually, the MLBUI method demonstrates reliable performance, with MAPE values below 10%. These findings suggest that the MLBUI method remains a viable option for addressing sequential missing data.
       
      URI
      http://repository.ipb.ac.id/handle/123456789/158725
      Collections
      • MT - Mathematics and Natural Science [4139]

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository
        

       

      Browse

      All of IPB RepositoryCollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

      My Account

      Login

      Application

      google store

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository