Pemanfaatan Big Data untuk Memprediksi Peserta JKN-KIS yang Menunggak
Date
2023Author
Rahmi, Ikhlasul Amalia
Afendi, Farit Mochamad
Kurnia, Anang
Metadata
Show full item recordAbstract
Revolusi Industri 4.0 telah membawa perubahan besar dalam berbagai bidang, termasuk data dan statistika. Salah satu kondisi yang tidak bisa diabaikan dalam inferensi statistika adalah big data, yaitu kondisi data dengan jumlah yang tidak terbatas, bentuk data yang beraneka ragam dan kecepatan perubahan yang tinggi. Teknik pembelajaran mesin (machine learning) menjadi solusi pada analisis big data untuk membantu dalam kontruksi model dan inferensi dilakukan secara otomatis. Salah satu teknik pembelajaran mesin yang banyak digunakan adalah metode pohon gabungan (ensemble tree) yaitu penggabungan dari beberapa pohon klasifikasi di mana keputusan akhir berdasarkan hasil gabungan prediksi masing-masing pohon. Pendekatan ini, menghasilkan tingkat akurasi yang lebih baik dibandingkan pohon klasifikasi tunggal. Dua cara yang umum dilakukan pada teknik ensemble tree adalah boosting dan bagging. Perbedaan dari kedua model tersebut adalah cara pembentukan pohonnya. Pembentukan pohon pada boosting dilakukan secara sekuensial seperti metode adaptive boosting (AdaBoost), sedangkan pembentukan pohon pada bagging dilakukan secara paralel seperti metode random forest.
Tantangan terbesar teknik pembelajaran mesin adalah cenderung menghasilkan model black box, yaitu dapat memberikan akurasi yang lebih baik tetapi tidak mudah dalam melakukan interpretasi. Metode interpretasi yang populer digunakan adalah Shapley Additive exPlanations (SHAP), dimana tujuan utamanya adalah memperkirakan secara lokal dan menyederhanakan model yang kompleks dan sulit dimengerti.
BPJS Kesehatan sebagai pengelola jaminan kesehatan terbesar di dunia, memanfaatkan big data untuk mengoptimalkan pelaksanaan program Jaminan Kesehatan Nasional - Kartu Indonesia Sehat (JKN-KIS). Berdasarkan laporan Business Intelligence (BI) selama satu tahun yaitu Maret 2020 s.d Maret 2021, adanya pandemi covid-19 menunjukkan peningkatan peserta Pekerja Bukan Penerima Upah (PBPU) yang non aktif karena menunggak iuran. Salah satu upaya yang dilakukan BPJS untuk meningkatkan nilai penerimaan iuran PBPU adalah SMS blast yang berfungsi sebagai pengingat untuk membayar iuran, namun pengiriman SMS blast saat ini kurang efisien karena dikirimkan untuk seluruh peserta PBPU. Hal ini perlu dilakukan analisis agar pengiriman SMS blast hanya kepada peserta yang diprediksi menunggak pada bulan berikutnya.
Penelitian terkait prediksi peserta yang menunggak pembayaran iuran program JKN-KIS belum pernah dilakukan dengan menggunakan AdaBoost dan random forest. Oleh karena itu, analisis big data dengan metode pembelajaran mesin yang tepat menggunakan metode ensemble tree yaitu AdaBoost dan random forest menarik untuk dilakukan. Tujuan penelitian untuk mempelajari pola dan memprediksi peserta PBPU yang akan menunggak pembayaran iuran, serta mampu menginterpretasikan model black-box untuk mendapatkan peranan masing-masing peubah penjelas dengan menggunakan metode SHAP. Hasil prediksi peserta PBPU yang akan menunggak diharapkan mampu memberikan insight tambahan kepada BPJS Kesehatan dalam pencegahan peserta menunggak.
Data pada penelitian ini adalah big data peserta PBPU Program JKN-KIS yang dikelola oleh BPJS Kesehatan yaitu sebanyak ±13 juta data, namun pada saat pemodelan dilakukan sampling. Sampling data dilakukan untuk menghemat waktu, beban komputasi, dan biaya karena data yang cukup besar dan telah diujicobakan menggunakan 10% data sampel dan 50% data sampel dengan hasil tidak terlalu jauh berbeda. Diharapkan dengan menggunakan 50% data sampel dapat merepresentasikan keseluruan data yang ada. Terdapat dua tahapan analisis data yaitu praproses data dan pembentukan model klasifikasi serta interpretasi model klasifikasi. Gugus data dibagi menjadi data latih dan data uji dengan perbandingan 70:30, selanjutnya dilakukan penanganan ketidakseimbangan data menggunakan teknik SMOTE pada data latih. Pembentukan model klasifikasi menggunakan model AdaBoost dan random forest dilakukan pada data yang telah seimbang dengan menggunakan hyperparameter optimum.
Berdasarkan hasil pemodelan dapat disimpulkan bahwa metode pohon gabungan secara boosting maupun bagging mampu menangani klasifikasi peserta PBPU menunggak dengan tingkat akurasi tinggi, dengan nilai AUC pada kedua model diatas 80%. Diperoleh juga bahwa pohon gabungan secara bagging dengan model random forest memiliki nilai F_1 dan nilai AUC lebih baik dibandingkan pohon gabungan secara boosting dengan model AdaBoost. Interpretasi model digunakan metode SHAP pada model terbaik (random forest) dengan menampilkan summary plot. Hasil kajian menunjukkan peubah yang memiliki peran terbesar adalah riwayat kunjungan di Fasilitas Kesehatan Tingkat Pertama (FKTP) dan riwayat kunjungan di Fasilitas Kesehatan Rujukan Tingkat Lanjut (FKRTL), hal ini dikarenakan peserta yang akan memanfaatkan fasilitas kesehatan harus dalam status aktif, yang artinya peserta harus melakukan pelunasan pembayaran iuran. Peubah penting selanjutnya secara terurut yaitu pembayaran auto debit, usia peserta, riwayat mutasi turun kelas, lama kepesertaan, riwayat mutasi jenis kepesertaan, jumlah tertanggung, kelas rawat peserta, riwayat mutasi naik kelas, dan kepemilikan COB atau asuransi lain.