Model Ensemble Learning dengan Penjelasan Berbasais LIME pada Data Tidak Seimbang dalam Deteksi Dini Tekanan pada Pasar Modal

Mukhlashin, Putri Auliana Rifqi

Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/121961

Title:	Model Ensemble Learning dengan Penjelasan Berbasais LIME pada Data Tidak Seimbang dalam Deteksi Dini Tekanan pada Pasar Modal
Other Titles:	Ensemble Learning Model with LIME-Based Explanation for Imbalanced Data in Early Detection of Pressure in the Capital Markets
Authors:	Fitrianto, Anwar Soleh, Agus Mohamad Mukhlashin, Putri Auliana Rifqi
Issue Date:	2023
Publisher:	IPB University
Abstract:	Pasar modal merupakan tempat pertemuan antara pemilik modal dan investor untuk mendanai usaha dan menjaga stabilitas perekonomian suatu negara. Namun, tekanan yang terjadi pada pasar modal dapat memiliki dampak negatif yang signifikan terhadap perekonomian secara keseluruhan. Oleh karena itu, diperlukan sistem peringatan dini yang efektif untuk mengurangi dampak negatif tersebut. Kejadian tekanan pada pasar modal memiliki frekuensi yang jauh lebih rendah daripada hari-hari normal, yang dalam konteks pemodelan machine learning dikenal sebagai ketidakseimbangan kelas. Kelas minoritas mengacu pada kejadian tekanan, sedangkan kelas mayoritas merujuk pada kejadian normal. Untuk memastikan hasil prediksi yang lebih akurat terhadap kelas minoritas, penanganan ketidakseimbangan kelas dalam pemodelan machine learning menjadi sangat penting. Dalam penelitian ini, dilakukan berbagai teknik penanganan ketidakseimbangan kelas, seperti pengurangan sampel menggunakan Random Undersampling (RUS), penambahan sampel dengan Random Oversampling (ROS), SMOTE, SMOTE-Borderline, dan ADASYN, serta kombinasi penambahan dan pengurangan sampel menggunakan metode over-under sampling seperti SMOTE Tomek dan SMOTE-ENN. Selain itu, penerapan pembobotan kelas (class weight) juga dilakukan dengan menggunakan model machine learning ensemble seperti Bootstrap Aggregating (Bagging) dan Boosting, yang meliputi Random Forest, ExtraTrees, CatBoost, XGBoost, dan LightGBM. Data yang digunakan dalam penelitian ini mencakup rentang waktu harian dari Januari 2010 hingga Agustus 2020, dengan melibatkan berbagai variabel prediktor yang terkait dengan Pasar Saham Global Regional, Komoditas dan Kurs, Indikator Teknikal, Indeks Sektoral, IHSG Leaders, MSCI, Saham Net Buy/Sell Asing, serta SBN dan Kepemilikan SBN. Variabel respon yang digunakan adalah kejadian imbal hasil terendah dari Crisis Management Protocol (CMP), dengan respon yang bersifat biner yaitu kejadian "Tekanan" dan kejadian "Normal". Pemodelan dilakukan dalam empat skenario prediksi, yaitu memprediksi pergerakan pasar modal untuk 1 hari, 5 hari, 15 hari, dan 30 hari ke depan. Model terbaik untuk setiap skenario prediksi dipilih berdasarkan nilai Geometric Mean (G-Mean) tertinggi. Model ExtraTrees yang menggunakan metode penanganan SMOTE-ENN terbukti menjadi yang terbaik dalam memprediksi kejadian tekanan 1 hari ke depan, dengan nilai G-Mean mencapai 96.88%. Sedangkan untuk prediksi kejadian 5 hari ke depan, model LightGBM dengan penanganan SMOTE memiliki nilai G-Mean sebesar 89.21%. Untuk prediksi kejadian 15 hari ke depan, model CatBoost dengan penanganan SMOTE Border menunjukkan performa terbaik dengan nilai G-Mean sebesar 89.49%. Namun, ketika memprediksi kejadian 30 hari ke depan, model LightGBM dengan penanganan SMOTE-Tomek menjadi metode terbaik meskipun dengan nilai G Mean yang lebih rendah, yaitu 68.02%. Hasil ini menunjukkan bahwa semakin jauh periode prediksi, performa model cenderung melemah. Penelitian ini menunjukkan bahwa metode yang efektif dalam menangani masalah ketidakseimbangan kelas pada model machine learning adalah teknik oversampling seperti SMOTE dan SMOTE-Border, serta teknik over-under sampling seperti SMOTE-ENN dan SMOTE-Border. Di sisi lain, metode RUS, ROS, dan penggunaan class weight terbukti kurang efektif dalam menangani ketidakseimbangan kelas pada penelitian ini. Pemodelan ensemble dilakukan menggunakan metode stacking dengan tujuan meningkatkan kinerja model. Dalam penelitian ini, digunakan metode Super Learner (SL) yang menggunakan model dasar dengan teknik SMOTE, SMOTE Border, SMOTE-ENN, dan SMOTE-Border yang terbukti efektif pada tahap sebelumnya. Hasil evaluasi menunjukkan bahwa SL berhasil mencapai nilai G Mean tertinggi pada setiap periode prediksi dengan menggunakan penanganan ketidakseimbangan kelas yang berbeda pada masing-masing skenario. Model SL mampu memberikan hasil prediksi yang lebih akurat dibandingkan dengan model dasar yang digunakan secara individu. Pada prediksi kejadian tekanan 1 hari ke depan menggunakan penanganan SMOTE-Border, SL mencapai nilai G-Mean sebesar 99.95%, sedangkan pada prediksi 5 hari ke depan dengan penanganan SMOTE-Border, SL mencapai nilai G-Mean sebesar 96.72%. Pada prediksi 15 hari ke depan menggunakan penanganan SMOTE, SL mencapai nilai G-Mean sebesar 99.34%, dan pada prediksi 30 hari ke depan dengan penanganan SMOTE, SL mencapai nilai G-Mean sebesar 81.11%. Secara keseluruhan, dapat disimpulkan bahwa model terbaik dalam memprediksi kejadian di pasar modal untuk seluruh skenario adalah model SL. Namun, karena kompleksitas model SL, digunakan teknik penjelasan berbasis Local Interpretable Model-Agnostic Explanation (LIME) untuk menjelaskan hasil prediksi secara lokal. Evaluasi metrik menunjukkan bahwa model SL dapat digunakan untuk memantau dan mendeteksi kejadian di pasar modal Indonesia, dan penjelasan berbasis LIME dapat menginterpretasikan kontribusi setiap variabel pada hasil prediksi dengan baik. Diharapkan penjelasan ini dapat membantu dalam pengambilan keputusan terkait kejadian di pasar modal. The capital market serves as a meeting place for capital owners and investors to fund businesses and maintain the economic stability of a country. However, pressures in the capital market can have significant negative impacts on the overall economy. Therefore, an effective early warning system is needed to mitigate these negative impacts. Pressure events in the capital market occur at a much lower frequency than normal days, which in the context of machine learning modeling is known as class imbalance. The minority class refers to pressure events, while the majority class refers to normal events. To ensure more accurate predictions for the minority class, handling class imbalance in machine learning modeling is crucial. In this study, various techniques for handling class imbalance were employed, such as undersampling using Random Undersampling (RUS), oversampling with Random Oversampling (ROS), SMOTE, SMOTE-Borderline, and ADASYN, as well as combined using over-under sampling methods like SMOTE-Tomek and SMOTE-ENN. Additionally, class weighting was applied using ensemble machine learning models such as Bootstrap Aggregating (Bagging) and Boosting, including Random Forest, ExtraTrees, CatBoost, XGBoost, and LightGBM. The data used in this study covered a daily time range from January 2010 to August 2020, involving various predictor variables related to Global Regional Stock Markets, Commodities and Exchange Rates, Technical Indicators, Sectoral Indices, IHSG Leaders, MSCI, Net Buy/Sell Foreign Stocks, as well as Government Bonds (SBN) and SBN Ownership. The response variable used was the occurrence of the lowest yield events from the Crisis Management Protocol (CMP), with a binary response of "Pressure" and "Normal" events. Modeling was conducted in four prediction scenarios, namely predicting the stock market movement for 1 day, 5 days, 15 days, and 30 days ahead. Based on the analysis results, the best model for each prediction scenario was selected based on the highest Geometric Mean (G-Mean) value. The ExtraTrees model using SMOTE-ENN handling proved to be the best in predicting events 1 day ahead, with a G-Mean value of 96.88%. For predicting events 5 days ahead, the LightGBM model with SMOTE handling achieved a G-Mean value of 89.21%. For predicting events 15 days ahead, the CatBoost model with SMOTE-Border handling exhibited the best performance with a G-Mean value of 89.49%. However, when predicting events 30 days ahead, the LightGBM model with SMOTE-Tomek handling became the best method, albeit with a lower G-Mean value of 68.02%. These results indicate that as the prediction period increases, the model's performance tends to weaken. This research demonstrates that effective methods for addressing class imbalance issues in machine learning models are oversampling techniques such as SMOTE and SMOTE-Border, as well as over-under sampling techniques such as SMOTE-ENN and SMOTE-Border. On the other hand, RUS, ROS, and the use of class weights proved to be less effective in handling class imbalance in this study. An ensemble modeling using the stacking method was conducted with the aim of improving the model's performance. In this study, the Super Learner (SL) method was employed, which utilized base models with SMOTE, SMOTE-Border, SMOTE-ENN, and SMOTE-Border techniques that had proven effective in the previous stage. The evaluation results showed that SL achieved the highest G-Mean values in each prediction period using different class imbalance handling techniques in each scenario. The SL model was able to provide more accurate prediction results compared to the individual base models. In the 1-day ahead prediction using SMOTE handling, SL achieved a G-Mean value of 99.95%, while in the 5-day ahead prediction with SMOTE-Border handling, SL reached a G-Mean value of 96.72%. In the 15-day ahead prediction using SMOTE handling, SL achieved a G-Mean value of 99.34%, and in the 30-day ahead prediction with SMOTE-Tomek handling, SL achieved a G-Mean value of 81.11%. Overall, it can be concluded that the best model for predicting events in the capital market for all scenarios is the SL model. However, due to the complexity of the SL model, an explanation technique based on Local Interpretable Model Agnostic Explanation (LIME) was utilized to explain the prediction results locally. The evaluation metrics indicated that the SL model can be used to monitor and detect events in the Indonesian capital market, and LIME-based explanations can effectively interpret the contribution of each variable to the prediction results. It is hoped that these explanations can assist in decision-making related to events in the capital market.
URI:	http://repository.ipb.ac.id/handle/123456789/121961
Appears in Collections:	MT - Mathematics and Natural Science

Files in This Item:

File	Description	Size	Format
Cover, Lembar Pengesahan, Prakata, Daftar Isi.pdf Restricted Access	Cover	412.94 kB	Adobe PDF	View/Open
G152190031_Putri Auliana Rifqi Mukhlashin.pdf Restricted Access	Fullteks	1.92 MB	Adobe PDF	View/Open
Lampiran.pdf Restricted Access	Lampiran	686.45 kB	Adobe PDF	View/Open

Show full item record Recommend this item

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets