Please use this identifier to cite or link to this item:
http://repository.ipb.ac.id/handle/123456789/121961
Title: | Model Ensemble Learning dengan Penjelasan Berbasais LIME pada Data Tidak Seimbang dalam Deteksi Dini Tekanan pada Pasar Modal |
Other Titles: | Ensemble Learning Model with LIME-Based Explanation for Imbalanced Data in Early Detection of Pressure in the Capital Markets |
Authors: | Fitrianto, Anwar Soleh, Agus Mohamad Mukhlashin, Putri Auliana Rifqi |
Issue Date: | 2023 |
Publisher: | IPB University |
Abstract: | Pasar modal merupakan tempat pertemuan antara pemilik modal dan investor
untuk mendanai usaha dan menjaga stabilitas perekonomian suatu negara. Namun,
tekanan yang terjadi pada pasar modal dapat memiliki dampak negatif yang
signifikan terhadap perekonomian secara keseluruhan. Oleh karena itu, diperlukan
sistem peringatan dini yang efektif untuk mengurangi dampak negatif tersebut.
Kejadian tekanan pada pasar modal memiliki frekuensi yang jauh lebih rendah
daripada hari-hari normal, yang dalam konteks pemodelan machine learning
dikenal sebagai ketidakseimbangan kelas. Kelas minoritas mengacu pada kejadian
tekanan, sedangkan kelas mayoritas merujuk pada kejadian normal.
Untuk memastikan hasil prediksi yang lebih akurat terhadap kelas minoritas,
penanganan ketidakseimbangan kelas dalam pemodelan machine learning menjadi
sangat penting. Dalam penelitian ini, dilakukan berbagai teknik penanganan
ketidakseimbangan kelas, seperti pengurangan sampel menggunakan Random
Undersampling (RUS), penambahan sampel dengan Random Oversampling (ROS),
SMOTE, SMOTE-Borderline, dan ADASYN, serta kombinasi penambahan dan
pengurangan sampel menggunakan metode over-under sampling seperti SMOTE Tomek dan SMOTE-ENN. Selain itu, penerapan pembobotan kelas (class weight)
juga dilakukan dengan menggunakan model machine learning ensemble seperti
Bootstrap Aggregating (Bagging) dan Boosting, yang meliputi Random Forest,
ExtraTrees, CatBoost, XGBoost, dan LightGBM.
Data yang digunakan dalam penelitian ini mencakup rentang waktu harian
dari Januari 2010 hingga Agustus 2020, dengan melibatkan berbagai variabel
prediktor yang terkait dengan Pasar Saham Global Regional, Komoditas dan Kurs,
Indikator Teknikal, Indeks Sektoral, IHSG Leaders, MSCI, Saham Net Buy/Sell
Asing, serta SBN dan Kepemilikan SBN. Variabel respon yang digunakan adalah
kejadian imbal hasil terendah dari Crisis Management Protocol (CMP), dengan
respon yang bersifat biner yaitu kejadian "Tekanan" dan kejadian "Normal".
Pemodelan dilakukan dalam empat skenario prediksi, yaitu memprediksi
pergerakan pasar modal untuk 1 hari, 5 hari, 15 hari, dan 30 hari ke depan.
Model terbaik untuk setiap skenario prediksi dipilih berdasarkan nilai
Geometric Mean (G-Mean) tertinggi. Model ExtraTrees yang menggunakan
metode penanganan SMOTE-ENN terbukti menjadi yang terbaik dalam
memprediksi kejadian tekanan 1 hari ke depan, dengan nilai G-Mean mencapai
96.88%. Sedangkan untuk prediksi kejadian 5 hari ke depan, model LightGBM
dengan penanganan SMOTE memiliki nilai G-Mean sebesar 89.21%. Untuk
prediksi kejadian 15 hari ke depan, model CatBoost dengan penanganan SMOTE Border menunjukkan performa terbaik dengan nilai G-Mean sebesar 89.49%.
Namun, ketika memprediksi kejadian 30 hari ke depan, model LightGBM dengan
penanganan SMOTE-Tomek menjadi metode terbaik meskipun dengan nilai G Mean yang lebih rendah, yaitu 68.02%. Hasil ini menunjukkan bahwa semakin jauh
periode prediksi, performa model cenderung melemah.
Penelitian ini menunjukkan bahwa metode yang efektif dalam menangani
masalah ketidakseimbangan kelas pada model machine learning adalah teknik
oversampling seperti SMOTE dan SMOTE-Border, serta teknik over-under
sampling seperti SMOTE-ENN dan SMOTE-Border. Di sisi lain, metode RUS,
ROS, dan penggunaan class weight terbukti kurang efektif dalam menangani
ketidakseimbangan kelas pada penelitian ini.
Pemodelan ensemble dilakukan menggunakan metode stacking dengan tujuan
meningkatkan kinerja model. Dalam penelitian ini, digunakan metode Super
Learner (SL) yang menggunakan model dasar dengan teknik SMOTE, SMOTE Border, SMOTE-ENN, dan SMOTE-Border yang terbukti efektif pada tahap
sebelumnya. Hasil evaluasi menunjukkan bahwa SL berhasil mencapai nilai G Mean tertinggi pada setiap periode prediksi dengan menggunakan penanganan
ketidakseimbangan kelas yang berbeda pada masing-masing skenario. Model SL
mampu memberikan hasil prediksi yang lebih akurat dibandingkan dengan model
dasar yang digunakan secara individu. Pada prediksi kejadian tekanan 1 hari ke
depan menggunakan penanganan SMOTE-Border, SL mencapai nilai G-Mean
sebesar 99.95%, sedangkan pada prediksi 5 hari ke depan dengan penanganan
SMOTE-Border, SL mencapai nilai G-Mean sebesar 96.72%. Pada prediksi 15 hari
ke depan menggunakan penanganan SMOTE, SL mencapai nilai G-Mean sebesar
99.34%, dan pada prediksi 30 hari ke depan dengan penanganan SMOTE, SL
mencapai nilai G-Mean sebesar 81.11%.
Secara keseluruhan, dapat disimpulkan bahwa model terbaik dalam
memprediksi kejadian di pasar modal untuk seluruh skenario adalah model SL.
Namun, karena kompleksitas model SL, digunakan teknik penjelasan berbasis
Local Interpretable Model-Agnostic Explanation (LIME) untuk menjelaskan hasil
prediksi secara lokal. Evaluasi metrik menunjukkan bahwa model SL dapat
digunakan untuk memantau dan mendeteksi kejadian di pasar modal Indonesia, dan
penjelasan berbasis LIME dapat menginterpretasikan kontribusi setiap variabel
pada hasil prediksi dengan baik. Diharapkan penjelasan ini dapat membantu dalam
pengambilan keputusan terkait kejadian di pasar modal. The capital market serves as a meeting place for capital owners and investors to fund businesses and maintain the economic stability of a country. However, pressures in the capital market can have significant negative impacts on the overall economy. Therefore, an effective early warning system is needed to mitigate these negative impacts. Pressure events in the capital market occur at a much lower frequency than normal days, which in the context of machine learning modeling is known as class imbalance. The minority class refers to pressure events, while the majority class refers to normal events. To ensure more accurate predictions for the minority class, handling class imbalance in machine learning modeling is crucial. In this study, various techniques for handling class imbalance were employed, such as undersampling using Random Undersampling (RUS), oversampling with Random Oversampling (ROS), SMOTE, SMOTE-Borderline, and ADASYN, as well as combined using over-under sampling methods like SMOTE-Tomek and SMOTE-ENN. Additionally, class weighting was applied using ensemble machine learning models such as Bootstrap Aggregating (Bagging) and Boosting, including Random Forest, ExtraTrees, CatBoost, XGBoost, and LightGBM. The data used in this study covered a daily time range from January 2010 to August 2020, involving various predictor variables related to Global Regional Stock Markets, Commodities and Exchange Rates, Technical Indicators, Sectoral Indices, IHSG Leaders, MSCI, Net Buy/Sell Foreign Stocks, as well as Government Bonds (SBN) and SBN Ownership. The response variable used was the occurrence of the lowest yield events from the Crisis Management Protocol (CMP), with a binary response of "Pressure" and "Normal" events. Modeling was conducted in four prediction scenarios, namely predicting the stock market movement for 1 day, 5 days, 15 days, and 30 days ahead. Based on the analysis results, the best model for each prediction scenario was selected based on the highest Geometric Mean (G-Mean) value. The ExtraTrees model using SMOTE-ENN handling proved to be the best in predicting events 1 day ahead, with a G-Mean value of 96.88%. For predicting events 5 days ahead, the LightGBM model with SMOTE handling achieved a G-Mean value of 89.21%. For predicting events 15 days ahead, the CatBoost model with SMOTE-Border handling exhibited the best performance with a G-Mean value of 89.49%. However, when predicting events 30 days ahead, the LightGBM model with SMOTE-Tomek handling became the best method, albeit with a lower G-Mean value of 68.02%. These results indicate that as the prediction period increases, the model's performance tends to weaken. This research demonstrates that effective methods for addressing class imbalance issues in machine learning models are oversampling techniques such as SMOTE and SMOTE-Border, as well as over-under sampling techniques such as SMOTE-ENN and SMOTE-Border. On the other hand, RUS, ROS, and the use of class weights proved to be less effective in handling class imbalance in this study. An ensemble modeling using the stacking method was conducted with the aim of improving the model's performance. In this study, the Super Learner (SL) method was employed, which utilized base models with SMOTE, SMOTE-Border, SMOTE-ENN, and SMOTE-Border techniques that had proven effective in the previous stage. The evaluation results showed that SL achieved the highest G-Mean values in each prediction period using different class imbalance handling techniques in each scenario. The SL model was able to provide more accurate prediction results compared to the individual base models. In the 1-day ahead prediction using SMOTE handling, SL achieved a G-Mean value of 99.95%, while in the 5-day ahead prediction with SMOTE-Border handling, SL reached a G-Mean value of 96.72%. In the 15-day ahead prediction using SMOTE handling, SL achieved a G-Mean value of 99.34%, and in the 30-day ahead prediction with SMOTE-Tomek handling, SL achieved a G-Mean value of 81.11%. Overall, it can be concluded that the best model for predicting events in the capital market for all scenarios is the SL model. However, due to the complexity of the SL model, an explanation technique based on Local Interpretable Model Agnostic Explanation (LIME) was utilized to explain the prediction results locally. The evaluation metrics indicated that the SL model can be used to monitor and detect events in the Indonesian capital market, and LIME-based explanations can effectively interpret the contribution of each variable to the prediction results. It is hoped that these explanations can assist in decision-making related to events in the capital market. |
URI: | http://repository.ipb.ac.id/handle/123456789/121961 |
Appears in Collections: | MT - Mathematics and Natural Science |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Cover, Lembar Pengesahan, Prakata, Daftar Isi.pdf Restricted Access | Cover | 412.94 kB | Adobe PDF | View/Open |
G152190031_Putri Auliana Rifqi Mukhlashin.pdf Restricted Access | Fullteks | 1.92 MB | Adobe PDF | View/Open |
Lampiran.pdf Restricted Access | Lampiran | 686.45 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.