Evaluasi Kinerja Model Glarmax dan Arimax Dalam Peramalan Data Deret Waktu Biner
Date
2022Author
Aprilia, Mitha
Sumertajaya, I Made
Afendi, Farit Mochamad
Metadata
Show full item recordAbstract
Data deret waktu adalah kumpulan pengamatan dari suatu objek yang diamati selama kurun waktu tertentu dalam suatu selang waktu tertentu. Model yang menggambarkan pola hubungan dari variabel yang berbentuk data deret waktu dikatakan sebagai model deret waktu. Model deret waktu terbagi menjadi dua jenis yaitu model deret waktu yang stationer dan model deret waktu yang tidak stasioner. Model deret waktu yang stasioner yaitu model AR(p), MA(q) dan ARMA(p,q). Sedangkan model deret waktu yang tidak stasioner adalah model ARI(p,d), IMA(d,q), dan ARIMA(p,d,q). Model deret waktu yang stasioner maupun yang tidak stasioner, keduanya hanya menggunakan satu variabel dalam prosesnya. Hasil peralaman dipengaruhi oleh riwayat diri sendiri pada waktu sebelumnya.
Faktanya, data deret waktu tidak hanya dipengaruhi riwayat data diri sendiri pada waktu sebelumnya tapi juga bisa dipengaruhi oleh faktor lain. Oleh karena itu, berkembang model ARIMA(p,d,q) dengan tambahan variabel bebas yang dikenal dengan model ARIMAX(p,d,q). Model Autoregressive Integrated Moving Average atau ARIMAX(p,d,q) mampu melakukan peramalan nilai suatu objek dengan tambahan efek dari variabel lain yang diduga memiliki pengaruh terhadap objek yang sedang diteliti.
Model deret waktu yang berkembang saat ini seperti model ARIMAX(p,d,q) adalah model yang memiliki variabel respon numerik dan mengikuti sebaran normal. Namun banyak permasalahan di lapangan yang memiliki data dengan variabel responnya berupa kategorik dan tidak mengikuti sebaran normal. Contoh kasus yang memiliki variabel respon berupa kategorik yang tidak mengikuti sebaran normal pada bidang ekonomi, misalkan ingin diketahui faktor-faktor apa yang menyebabkan suatu kredit beresiko gagal bayar (macet) dengan variabel respon yang dikategorikan sebagai ‘0’ jika tidak gagal bayar (lancar) dan ‘1’ jika gagal bayar (macet). Pada contoh kasus ini, model ARIMAX(p,d,q) tidak bisa digunakan karena variabel respon yang digunakan berupa data biner dan tidak mengikuti sebaran normal. Salah satu jenis sebaran yang dapat digunakan untuk data yang memiliki variabel respon biner adalah sebaran binomial.
Beberapa pendekatan model yang dikenal dapat mengatasi data dengan variabel respon biner dan tidak mengikuti sebaran normal adalah model regresi logistik dengan fungsi hubung logit dan model regresi probit dengan fungsi hubung probit. Akan tetapi, model logistik maupun model probit tidak bisa digunakan untuk data deret waktu karena melanggar asumsi variabel yang digunakan harus saling bebas. Sedangkan data deret waktu adalah data yang tidak saling bebas. Oleh karena itu, berkembang model Generalized Autoregressive Moving Average atau GLARMA(p,q). Model GLARMA(p,q) adalah model yang menggabungkan model ARMA(p,q) dengan model regresi yang memiliki sebaran Poisson, Binomial, dan Negative Binomial.
Data Indeks Harga Saham Gabungan (IHSG) adalah salah satu contoh data deret waktu. IHSG adalah suatu nilai indeks harga saham dari gabungan seluruh saham yang terdaftar di Bursa Efek Indonesia (BEI). IHSG dipengaruhi oleh beberapa faktor baik dari dalam negeri (internal) maupun dari luar negeri (eksternal). Beberapa faktor yang mempengaruhi IHSG berdasarkan penelitian sebelumnya yaitu indeks saham dari negara lain, nilai tukar rupiah terhadap mata uang asing, harga minyak mentah, harga emas, inflasi, nilai ekspor-impor dan lain sebagainya. Data IHSG yang tercatat merupakan data numerik yaitu berupa indeks harga saham. Nilai IHSG sangat fluktuatif dari waktu ke waktu sehingga sangat sulit untuk memprediksi nilainya ke depan. Banyak peneliti yang telah melakukan analisis peramalan memprediksi nilai IHSG menggunakan model yang berkembang saat ini yaitu menggunakan pendekatan model untuk variabel respon numerik dan menyebar normal. Hasil keluaran yang dihasilkan juga berupa data numerik yaitu prediksi nilai IHSG.
Pada penelitian ini, penulis ingin menyajikan opsi lain yaitu berupa hasil keluaran yang biner dengan kriteria ‘0’ jika keadaan IHSG sedang turun (bearish) dan ‘1’ jika keadaan IHSG sedang naik (bullish). Penulis menggunakan dua pendekatan model yang akan dievaluasi kemampuannya dalam memprediksi kejadian bullish/bearish di Indonesia. Pendekatan model deret waktu pertama ialah model ARIMAX(p,d,q) yang mengikuti menggunakan variabel respon numerik dan mengikuti sebaran normal. Pendekatan model deret waktu kedua ialah model gabungan regresi logistik dan model ARMAX atau lebih dikenal sebagai model GLARMAX(p,q) yang menggunakan variabel respon biner dan mengikuti sebaran binomial. Hasil keluaran dari model ARIMAX(p,d,q) berupa prediksi nilai yang kemudian ditransformasi menjadi data biner dengan kriteria bernilai 1 jika prediksi IHSG pada waktu t lebih besar dibandingkan prediksi IHSG pada waktu t-1 dan 0 untuk lainnya. Sedangkan hasil keluaran dari model GLARMAX(p,q) berupa prediksi peluang kejadian yang kemudian juga ditransformasi menjadi data biner dengan kriteria bernilai 1 jika peluang prediksinya lebih besar dari rata-rata nilai prediksi pada data latih.
Hasil yang diperoleh adalah kedua model cukup baik dalam menjelaskan keadaan IHSG dan melakukan peramalan bullish/bearish di Indonesia. Model ARIMAX(p,d,q) yang terpilih ialah ARIMAX(2,1,0), sedangkan model GLARMAX(p,q) yang terpilih ialah GLARMAX(0,3). Jika dibandingkan berdasarkan nilai AIC, model GLARMAX(0,3) memiliki nilai AIC yang lebih kecil dibandingkan model ARIMAX(2,1,0). Artinya, model GLARMAX(0,3) lebih baik dalam mendekati variabel responnya yaitu keadaan bullish/bearish dibandingan model ARIMAX(2,1,0). Namun jika dilihat dari segi kemampuan peramalannya, model ARIMAX(2,1,0) sedikit lebih baik dibandingkan model GLARMAX(0,3). Hal ini dapat dilihat berdasarkan nilai persentase akurasi, sensitivitas dan spesifisitasnya. Model GLARMAX(0,3) memiliki persentase nilai akurasi, sensitivitas, dan spesifisitas sebesar 51,21%, 52,77%, dan 52,53%. Sedangkan model ARIMAX(2,1,0) memiliki nilai akurasi, sentivitas dan spesifisitas sebesar 67,71%, 65,02%, 71,10%. Setelah dilakukan peramalan untuk 7 hari kedepan, model ARIMAX(2,1,0) mampu mempediksi sebanyak 4 kejadian benar dari 7 kejadian, sedangkan model GLARMAX(0,3) mampu memprediksi sebanyak 3 kejadian dengan benar. Time series data is a collection of observations of an object observed over a certain period in a given time interval. Models that describe the relationship patterns of variables in time series data are said to be time series models. The time series model is divided into two types, the stationer time series model and the non-stationary time series model. Stationary time series models are AR(p), MA(q) and ARMA(p,q) models. At the same time, the models for data that are not stationary are the ARI(p,d), IMA(d,q), and ARIMA(p,d,q) models. Both stationary and non-stationary time series models use only one variable. The result of the experience was influenced by itself the last time.
However, the time-series data is not only influenced by itself at the last time but can also be influenced by other factors. Therefore, the ARIMA model evolved with the addition of free variables known as the ARIMAX model(p,d,q). The Autoregressive Integrated Moving Average or ARIMAX(p,d,q) model can forecast the value of an object in addition to the effects of other variables that are thought to influence the object being studied. The above model can be used if the response variables are in a number (numeric).
Currently evolving time series models such as the ARIMAX(p,d,q) model have numerical response variables and follow the normal distribution. However, there are many problems in the field with data whose response variables are categorical and do not follow the normal distribution. An example of a case that has a response variable in the form of a categorical that does not follow the normal distribution in the economic field, for example, want to know what factors cause credit to default (bad) with a response variable categorized as '0' if it does not default (fluent) and '1' if it defaults (bad). In this case, the response variable used is binary data. Many times, a type of distribution with binary response variables such as Bernoulli distribution for single observation results and binomial distribution for many times observation results.
Some classic model approaches used for data with binary response variables include logistic regression models that spread following a Bernoulli distribution or Binomial distribution with link function are logit or complementary log-log, probit regression that follows the normal distribution with the probit link function. However, some of these classic model approaches cannot be directly used for time series data because they do not have a time effect. Therefore, a Generalized Autoregressive Moving Average or GLARMA(p,q) model was developed that combines the ARMA(p,q) model and the classic model.
Composite Stock Price Index (JCI) data is an example of time-series data. JCI is a stock price index value of a composite of all stocks listed on the Indonesia Stock Exchange (IDX). JCI is influenced by several factors, both from within the country (internal) and from abroad (external). Based on previous research, some of the factors that affect the JCI are stock indices from other countries, the rupiah exchange rate against foreign currencies, crude oil prices, gold prices, inflation, export-import values, etc. The JCI data recorded is numerical data in a stock price index. The value of JCI is very volatile from time to time, so it is challenging to predict its value in the future. Many researchers have carried out forecasting analysis predicting the value of the JCI using the currently developing model, namely using a model approach for numerical response variables with normal distribution. The resulting output is also numerical data.
In this study, the author wants to present another option, namely in the form of binary output results with '0' if the JCI is falling (bearish) and '1' if the JCI is rising (bullish). Two model approaches will be evaluated in this study. The first time series model approach is the ARIMAX(p,d,q) model, which follows using numerical response variables and follows the normal distribution. The second time series approach is the GLARMAX(p,q) model with a classic logistic regression model that uses binary response variables and follows a binomial distribution. The output results of the ARIMAX (p, d, q) model are in the form of value predictions which are then transformed into binary data with a criterion of value ‘1’ if the JCI prediction at time t is greater than the JCI prediction at time t-1 and 0 for others. Meanwhile, the output results of the GLARMAX (p, q) model are in the form of predictions of event opportunities which are then also transformed into binary data with a criterion of value ‘1’ if the prediction opportunity is greater than the average prediction value in the training data.
The result obtained is that both models are quite good at explaining the state of the JCI and conducting bullish/bearish forecasting in Indonesia. The selected ARIMAX(p,d,q) model is ARIMAX(2,1,0), while the selected GLARMAX(p,q) model is GLARMAX(0,3). Compared based on the AIC value, the GLARMAX(0.3) model has a smaller AIC value than the ARIMAX(2,1,0) model. This means that the GLARMAX(0.3) model is better at approaching its response variable which is a bullish/bearish state than the ARIMAX(2,1,0) model. However, when viewed in forecasting capabilities, the ARIMAX(2,1,0) model is slightly better than the GLARMAX(0,3) model. This can be seen based on the percentage value of accuracy, sensitivity and specificity. The GLARMAX(0.3) model has percentages of accuracy, sensitivity, and specificity values of 51.21%, 52.77%, and 52.53%. While the ARIMAX model (2,1,0) has accuracy, sensitivity and specificity values of 67.71%, 65.02%, 71.10%. After forecasting for the next 7 days, the ARIMAX model (2,1,0) can predict as many as 4 actual events from 7 events, while the GLARMAX model(0,3) can correctly predict as many as 3 events.