Perbandingan Kinerja Algoritma XGBoost, CatBoost, dan LightGBM dalam Klasifikasi Kadar Glukosa Darah Non-Invasif
Abstract
Diabetes melitus merupakan penyakit kronis yang bersifat menahun dan dapat diderita seumur hidup. Berdasarkan laporan dari International Diabetes Federation (IDF) tahun 2021, Indonesia menduduki peringkat kelima dari 144 negara dengan penderita diabetes sebanyak 19,5 juta orang dan diperkirakan meningkat menjadi 28,6 juta orang pada tahun 2045. Tim Non-Invasif Biomarking IPB telah mengembangkan alat pengukur kadar glukosa darah non-invasif dengan prinsip spektroskopi inframerah. Data residu intensitas yang dihasilkan terbaca berbeda pada setiap amatannya, sehingga jumlah amatan menjadi tidak seragam. Pada penelitian ini dilakukan peringkasan luas dibagi jumlah titik sebagai penanganan amatan tidak seragam. Pemodelan klasifikasi dilakukan untuk menganalisis hubungan antara kelas kadar glukosa darah hasil alat ukur invasif dengan spektrum residu intensitas hasil alat ukur non-invasif. Permasalahan lebih lanjut dalam pemodelan klasifikasi adalah ketidakseimbangan data. Salah satu metode yang dapat digunakan untuk menangani permasalahan ini adalah Synthetic Minority Oversampling Technique (SMOTE). Berdasarkan evaluasi kinerja, algoritma CatBoost tanpa SMOTE menunjukkan performa klasifikasi paling unggul dalam mengklasifikasikan kadar glukosa darah non-invasif dibandingkan dengan XGBoost dan LightGBM. CatBoost tanpa SMOTE menunjukkan keseimbangan yang baik pada balanced accuracy, sensitivitas, dan spesifisitas serta mencapai akurasi sebesar 70,83%. CatBoost tanpa SMOTE memiliki sensitivitas sebesar 75%, spesifitas sebesar 80%, dan balanced accuracy sebesar 77,5% pada kelas diabetes. Model memiliki false negative yang rendah pada kelas diabetes dan false positive yang rendah pada kelas prediabetes. Diabetes mellitus is a chronic disease that is chronic and can be suffered for life. Based on a report from the International Diabetes Federation (IDF) in 2021, Indonesia is ranked fifth out of 144 countries with 19.5 million people with diabetes and is estimated to increase to 28.6 million people in 2045. IPB's Non-Invasive Biomarking team has developed a non-invasive blood glucose meter with the principle of infrared spectroscopy. The resulting intensity residual data reads differently in each observation, so the number of observations becomes nonuniform. In this study, area summarization divided by the number of points was performed to handle non-uniform observations. Classification modeling was conducted to analyze the relationship between the blood glucose level class of invasive measurement tools and the residual intensity spectrum of non-invasive measurement tools. A further problem in classification modeling is data imbalance. One method that can be used to handle this problem is Synthetic Minority Oversampling Technique (SMOTE). Based on the performance evaluation, the CatBoost algorithm without SMOTE showed the most superior classification performance in classifying non-invasive blood glucose levels compared to XGBoost and LightGBM. CatBoost without SMOTE showed a good balance in balanced accuracy, sensitivity, and specificity and achieved an accuracy of 70.83%. CatBoost without SMOTE has a sensitivity of 75%, specificity of 80%, and balanced accuracy of 77.5% in the diabetes class. The model has a low false negative in the diabetes class and a low false positive in the prediabetes class.
