Model Ensemble Learning dengan Penjelasan Berbasais LIME pada Data Tidak Seimbang dalam Deteksi Dini Tekanan pada Pasar Modal
Date
2023Author
Mukhlashin, Putri Auliana Rifqi
Fitrianto, Anwar
Soleh, Agus Mohamad
Metadata
Show full item recordAbstract
Pasar modal merupakan tempat pertemuan antara pemilik modal dan investor
untuk mendanai usaha dan menjaga stabilitas perekonomian suatu negara. Namun,
tekanan yang terjadi pada pasar modal dapat memiliki dampak negatif yang
signifikan terhadap perekonomian secara keseluruhan. Oleh karena itu, diperlukan
sistem peringatan dini yang efektif untuk mengurangi dampak negatif tersebut.
Kejadian tekanan pada pasar modal memiliki frekuensi yang jauh lebih rendah
daripada hari-hari normal, yang dalam konteks pemodelan machine learning
dikenal sebagai ketidakseimbangan kelas. Kelas minoritas mengacu pada kejadian
tekanan, sedangkan kelas mayoritas merujuk pada kejadian normal.
Untuk memastikan hasil prediksi yang lebih akurat terhadap kelas minoritas,
penanganan ketidakseimbangan kelas dalam pemodelan machine learning menjadi
sangat penting. Dalam penelitian ini, dilakukan berbagai teknik penanganan
ketidakseimbangan kelas, seperti pengurangan sampel menggunakan Random
Undersampling (RUS), penambahan sampel dengan Random Oversampling (ROS),
SMOTE, SMOTE-Borderline, dan ADASYN, serta kombinasi penambahan dan
pengurangan sampel menggunakan metode over-under sampling seperti SMOTE Tomek dan SMOTE-ENN. Selain itu, penerapan pembobotan kelas (class weight)
juga dilakukan dengan menggunakan model machine learning ensemble seperti
Bootstrap Aggregating (Bagging) dan Boosting, yang meliputi Random Forest,
ExtraTrees, CatBoost, XGBoost, dan LightGBM.
Data yang digunakan dalam penelitian ini mencakup rentang waktu harian
dari Januari 2010 hingga Agustus 2020, dengan melibatkan berbagai variabel
prediktor yang terkait dengan Pasar Saham Global Regional, Komoditas dan Kurs,
Indikator Teknikal, Indeks Sektoral, IHSG Leaders, MSCI, Saham Net Buy/Sell
Asing, serta SBN dan Kepemilikan SBN. Variabel respon yang digunakan adalah
kejadian imbal hasil terendah dari Crisis Management Protocol (CMP), dengan
respon yang bersifat biner yaitu kejadian "Tekanan" dan kejadian "Normal".
Pemodelan dilakukan dalam empat skenario prediksi, yaitu memprediksi
pergerakan pasar modal untuk 1 hari, 5 hari, 15 hari, dan 30 hari ke depan.
Model terbaik untuk setiap skenario prediksi dipilih berdasarkan nilai
Geometric Mean (G-Mean) tertinggi. Model ExtraTrees yang menggunakan
metode penanganan SMOTE-ENN terbukti menjadi yang terbaik dalam
memprediksi kejadian tekanan 1 hari ke depan, dengan nilai G-Mean mencapai
96.88%. Sedangkan untuk prediksi kejadian 5 hari ke depan, model LightGBM
dengan penanganan SMOTE memiliki nilai G-Mean sebesar 89.21%. Untuk
prediksi kejadian 15 hari ke depan, model CatBoost dengan penanganan SMOTE Border menunjukkan performa terbaik dengan nilai G-Mean sebesar 89.49%.
Namun, ketika memprediksi kejadian 30 hari ke depan, model LightGBM dengan
penanganan SMOTE-Tomek menjadi metode terbaik meskipun dengan nilai G Mean yang lebih rendah, yaitu 68.02%. Hasil ini menunjukkan bahwa semakin jauh
periode prediksi, performa model cenderung melemah.
Penelitian ini menunjukkan bahwa metode yang efektif dalam menangani
masalah ketidakseimbangan kelas pada model machine learning adalah teknik
oversampling seperti SMOTE dan SMOTE-Border, serta teknik over-under
sampling seperti SMOTE-ENN dan SMOTE-Border. Di sisi lain, metode RUS,
ROS, dan penggunaan class weight terbukti kurang efektif dalam menangani
ketidakseimbangan kelas pada penelitian ini.
Pemodelan ensemble dilakukan menggunakan metode stacking dengan tujuan
meningkatkan kinerja model. Dalam penelitian ini, digunakan metode Super
Learner (SL) yang menggunakan model dasar dengan teknik SMOTE, SMOTE Border, SMOTE-ENN, dan SMOTE-Border yang terbukti efektif pada tahap
sebelumnya. Hasil evaluasi menunjukkan bahwa SL berhasil mencapai nilai G Mean tertinggi pada setiap periode prediksi dengan menggunakan penanganan
ketidakseimbangan kelas yang berbeda pada masing-masing skenario. Model SL
mampu memberikan hasil prediksi yang lebih akurat dibandingkan dengan model
dasar yang digunakan secara individu. Pada prediksi kejadian tekanan 1 hari ke
depan menggunakan penanganan SMOTE-Border, SL mencapai nilai G-Mean
sebesar 99.95%, sedangkan pada prediksi 5 hari ke depan dengan penanganan
SMOTE-Border, SL mencapai nilai G-Mean sebesar 96.72%. Pada prediksi 15 hari
ke depan menggunakan penanganan SMOTE, SL mencapai nilai G-Mean sebesar
99.34%, dan pada prediksi 30 hari ke depan dengan penanganan SMOTE, SL
mencapai nilai G-Mean sebesar 81.11%.
Secara keseluruhan, dapat disimpulkan bahwa model terbaik dalam
memprediksi kejadian di pasar modal untuk seluruh skenario adalah model SL.
Namun, karena kompleksitas model SL, digunakan teknik penjelasan berbasis
Local Interpretable Model-Agnostic Explanation (LIME) untuk menjelaskan hasil
prediksi secara lokal. Evaluasi metrik menunjukkan bahwa model SL dapat
digunakan untuk memantau dan mendeteksi kejadian di pasar modal Indonesia, dan
penjelasan berbasis LIME dapat menginterpretasikan kontribusi setiap variabel
pada hasil prediksi dengan baik. Diharapkan penjelasan ini dapat membantu dalam
pengambilan keputusan terkait kejadian di pasar modal. The capital market serves as a meeting place for capital owners and investors
to fund businesses and maintain the economic stability of a country. However,
pressures in the capital market can have significant negative impacts on the overall
economy. Therefore, an effective early warning system is needed to mitigate these
negative impacts. Pressure events in the capital market occur at a much lower
frequency than normal days, which in the context of machine learning modeling is
known as class imbalance. The minority class refers to pressure events, while the
majority class refers to normal events.
To ensure more accurate predictions for the minority class, handling class
imbalance in machine learning modeling is crucial. In this study, various techniques
for handling class imbalance were employed, such as undersampling using Random
Undersampling (RUS), oversampling with Random Oversampling (ROS), SMOTE,
SMOTE-Borderline, and ADASYN, as well as combined using over-under
sampling methods like SMOTE-Tomek and SMOTE-ENN. Additionally, class
weighting was applied using ensemble machine learning models such as Bootstrap
Aggregating (Bagging) and Boosting, including Random Forest, ExtraTrees,
CatBoost, XGBoost, and LightGBM.
The data used in this study covered a daily time range from January 2010 to
August 2020, involving various predictor variables related to Global Regional
Stock Markets, Commodities and Exchange Rates, Technical Indicators, Sectoral
Indices, IHSG Leaders, MSCI, Net Buy/Sell Foreign Stocks, as well as Government
Bonds (SBN) and SBN Ownership. The response variable used was the occurrence
of the lowest yield events from the Crisis Management Protocol (CMP), with a
binary response of "Pressure" and "Normal" events. Modeling was conducted in
four prediction scenarios, namely predicting the stock market movement for 1 day,
5 days, 15 days, and 30 days ahead.
Based on the analysis results, the best model for each prediction scenario was
selected based on the highest Geometric Mean (G-Mean) value. The ExtraTrees
model using SMOTE-ENN handling proved to be the best in predicting events 1
day ahead, with a G-Mean value of 96.88%. For predicting events 5 days ahead, the
LightGBM model with SMOTE handling achieved a G-Mean value of 89.21%. For
predicting events 15 days ahead, the CatBoost model with SMOTE-Border
handling exhibited the best performance with a G-Mean value of 89.49%. However,
when predicting events 30 days ahead, the LightGBM model with SMOTE-Tomek
handling became the best method, albeit with a lower G-Mean value of 68.02%.
These results indicate that as the prediction period increases, the model's
performance tends to weaken.
This research demonstrates that effective methods for addressing class
imbalance issues in machine learning models are oversampling techniques such as
SMOTE and SMOTE-Border, as well as over-under sampling techniques such as
SMOTE-ENN and SMOTE-Border. On the other hand, RUS, ROS, and the use of
class weights proved to be less effective in handling class imbalance in this study.
An ensemble modeling using the stacking method was conducted with the
aim of improving the model's performance. In this study, the Super Learner (SL)
method was employed, which utilized base models with SMOTE, SMOTE-Border,
SMOTE-ENN, and SMOTE-Border techniques that had proven effective in the
previous stage. The evaluation results showed that SL achieved the highest G-Mean
values in each prediction period using different class imbalance handling
techniques in each scenario. The SL model was able to provide more accurate
prediction results compared to the individual base models. In the 1-day ahead
prediction using SMOTE handling, SL achieved a G-Mean value of 99.95%, while
in the 5-day ahead prediction with SMOTE-Border handling, SL reached a G-Mean
value of 96.72%. In the 15-day ahead prediction using SMOTE handling, SL
achieved a G-Mean value of 99.34%, and in the 30-day ahead prediction with
SMOTE-Tomek handling, SL achieved a G-Mean value of 81.11%.
Overall, it can be concluded that the best model for predicting events in the
capital market for all scenarios is the SL model. However, due to the complexity of
the SL model, an explanation technique based on Local Interpretable Model Agnostic Explanation (LIME) was utilized to explain the prediction results locally.
The evaluation metrics indicated that the SL model can be used to monitor and
detect events in the Indonesian capital market, and LIME-based explanations can
effectively interpret the contribution of each variable to the prediction results. It is
hoped that these explanations can assist in decision-making related to events in the
capital market.
