Perbandingan Kinerja Metode Naïve Bayes dan Random Forest untuk Klasifikasi Risiko Saham Perbankan
Abstract
Ketidakpastian risiko pada investasi saham menuntut pendekatan yang
andal dalam menentukan keputusan investasi. Salah satu pendekatan yang dapat
digunakan adalah metode klasifikasi seperti naïve Bayes dan random forest.
Penelitian ini bertujuan membandingkan kinerja metode naïve Bayes dan random
forest dalam mengklasifikasikan kelas risiko berupa risiko tinggi dan risiko
rendah pada 25 saham sektor perbankan di Indonesia. Namun, tidak ada kriteria
yang pasti dalam mengelompokkan kelas risiko saham. Dengan demikian,
pengelompokan kelas data aktual memanfaatkan volatilitas sebagai gambaran
fluktuatif dari risiko dengan nilai mediannya sebagai pembatas untuk kelas risiko
tinggi dan kelas risiko rendah. Kedua metode klasifikasi yang digunakan bekerja
berdasarkan variabel prediktor berupa return dan price range. Naïve Bayes
memodelkan distribusi Gaussian untuk menghitung probabilitas kelas, sedangkan
random forest membangun serangkaian pohon keputusan untuk menentukan kelas
klasifikasi berdasarkan pemungutan suara mayoritas. Evaluasi kinerja kedua
metode klasifikasi terhadap data uji menggunakan metrik akurasi, presisi, recall,
dan f1-score. Hasil yang diperoleh menunjukkan bahwa random forest dengan
akurasi tahunan sebesar 0.8433, presisi 0.7769, recall 0.8246, dan f1-score 0.8000
adalah metode klasifikasi yang lebih baik secara keseluruhan dibandingkan naïve
Bayes dengan akurasi tahunan sebesar 0.7833, presisi 0.8182, recall 0.5526, dan
f1-score 0.6597. The uncertainty of risk in stock investment demands a reliable approach to
support investment decision-making. One such approach is the use of
classification methods, such as naïve Bayes and random forest. This study aims to
compare the performance of the naïve Bayes and random forest methods in
classifying risk classes, namely high risk and low risk, for 25 banking sector stocks in Indonesia. However, there are no definite criteria for grouping stock risk
classes. Therefore, the actual data classes are grouped using volatility as a
representation of risk fluctuations, with its median value serving as the threshold
between high-risk and low-risk classes. Both classification methods work based
on predictor variables, namely return and price range. Naïve Bayes models a
Gaussian distribution to calculate class probabilities, while random forest builds
an ensemble of decision trees to determine the classification outcome based on
majority voting. The performance of both classification methods on the test data is
evaluated using accuracy, precision, recall, and f1-score metrics. The results show
that random forest, with an annual accuracy of 0.8433, precision of 0.7769, recall
of 0.8246, and f1-score of 0.8000, is an overall better classification method
compared to naïve Bayes, which achieves an annual accuracy of 0.7833, precision
of 0.8182, recall of 0.5526, and f1-score of 0.6597.
Collections
- UT - Actuaria [56]
