Kajian Metode Ensemble dengan Pendekatan Riam (Cascade) pada Kelas Tak Seimbang untuk Pendeteksian Faktor Risiko Stroke
Date
2024-01Author
Nurmawati, Widya Putri
Indahwati, Indahwati
Afendi, Farit Mochamad
Metadata
Show full item recordAbstract
Prevalensi penyakit stroke di Indonesia terus mengalami peningkatan. Salah satu survei di Indonesia yang memuat informasi mengenai kondisi kesehatan masyarakat Indonesia adalah Indonesian Family Life Survey (IFLS). Data responden dengan penyakit stroke pada IFLS5 menunjukan data yang tidak seimbang, dengan imbalance ratio sebesar 99:1. Tingkat ketidakseimbangan ini termasuk ekstrem maka penelitian ini bertujuan mengatasi masalah tersebut dengan metode SMOTE, SMOTE-Tomek Link, dan SMOTE-ENN, kemudian dataset yang sudah seimbang diklasifikasi menggunakan kombinasi metode ensemble dengan pendekatan metode riam, serta mengidentifikasi peubah penting untuk meningkatkan pendeteksian risiko stroke. Hasil penelitian menunjukkan setelah data latih diseimbangkan responden stroke masih sulit diklasifikasikan, hal tersebut dapat terjadi karena jumlah data sebelum dan sesudah penyeimbangan cukup banyak sehingga membuat plot kelas mayor dan minor saling tumpang tindih. Sehingga solusi untuk menangani hal ini yaitu dilakukan penanganan ketidakseimbangan pada data latih menggunakan SMOTE dengan berbagai persentase yang berbeda yaitu 100%, 75%, 50%, 25%, dan 5%. Persentase terbaik ketika metode ensemble diterapkan pada 5% dari data latih yang diseimbangkan dengan metode SMOTE-ENN. Sehingga model yang dibangun hanya mengambil 5% dari data latih untuk mengklasifikasi responden stroke dan tidak stroke pada data uji. Hasil kinerja metode ensemble dengan metode riam meningkatkan nilai sensitivitas dan balanced accuracy. Hal ini berarti metode riam cukup efektif dalam mengklasifikasikan responden yang stroke. Random forest dan regresi logistik merupakan kombinasi model yang menghasilkan performa terbaik, dengan pohon klasifikasi sebagai model akhir. Peubah penting yang diperoleh dari kombinasi ini adalah penambahan peluang dari regresi logistik, random forest, riwayat penyakit hipertensi, usia, dan aktivitas fisik.
