Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/108674
Title: Metode Global Surrogate dan Shapley Additive Explanations (SHAP) untuk Menjelaskan Model Klasifikasi Industri Pelaku Litbang
Authors: Sartono, Bagus
Soleh, Agus Mohamad
Hidayati, Endang Febrian Khusnul
Issue Date: 2021
Publisher: IPB University
Abstract: Belanja litbang menjadi salah satu indikator Indeks Daya Saing Bangsa yaitu persentase belanja litbang terhadap PDB atau Gross Expenditure on Research and Development (GERD). Nilai persentase Business Expenditure on Research and Development (BERD) terhadap PDB di Indonesia tahun 2018 adalah 7.34%. Salah satu penyebab hal ini terjadi karena pengumpulan data litbang pada sektor industri di Indonesia masih belum dapat dilakukan secara optimal. Berdasarkan data BPS tahun 2020, jumlah industri besar (manufaktur) di Indonesia dapat mencapai 10289 industri. Sementara itu, setiap tahun target pengumpulan data litbang di sektor industri hanya 500-600 industri dan diperoleh hasil industri yang melakukan litbang di setiap tahun hanya 40%-50% dari data yang dikumpulkan. Oleh karena itu, diperlukan pembuatan model klasifikasi pada industri pelaku litbang untuk mendapatkan data industri yang rutin melakukan litbang sebagai target dalam pengumpulan data sehingga data industri pelaku litbang yang diperoleh dapat lebih optimal. Model klasifikasi yang biasa digunakan adalah pohon gabungan. Beberapa metode yang berbasis pohon gabungan adalah Random Forest dan XGBoost. Kedua metode tersebut akan menghasilkan model black-box, dimana model yang dihasilkan tidak diketahui mekanisme di dalamnya karena sangat kompleks sehingga tidak mudah dijelaskan. Pada bidang-bidang tertentu, misalnya pemerintahan, tidak hanya diperlukan akurasi yang cukup baik tetapi juga dibutuhkan penjelasan dari sebuah model klasifikasi yang diperoleh. Global Surrogate dan Shapley Additive Explanations (SHAP) merupakan metode yang digunakan untuk menjelaskan model black-box. Penelitian ini membandingkan metode klasifikasi Random Forest dan XGBoost untuk mendapatkan model terbaik klasifikasi industri pelaku litbang, serta menggunakan metode Global Surrogate dan SHAP untuk menjelaskan model terbaik sehingga mendapatkan informasi lebih dalam. Data yang digunakan adalah data industri pelaku litbang di Indonesia tahun 2015 sampai dengan 2018. Terdapat tiga tahap analisis yaitu tahap persiapan data, pembuatan model klasifikasi dan penjelasan model terbaik. Pada pembuatan model klasifikasi, dilakukan perulangan sebanyak 100 kali untuk mendapatkan model terbaik. Pada penjelasan model terbaik dengan Global Surrogate, model pengganti yang digunakan adalah pohon klasifikasi, dengan tujuan agar mendapatkan infromasi karakteristik dari industri pelaku litbang serta lebih mudah dijelaskan dan dipahami oleh pengguna. Sementara itu, penjelasan dengan SHAP digunakan Plot SHAP Summary dan Plot SHAP Feature Dependence. Pada perbandingan model klasifikasi industri pelaku litbang, XGBoost menghasilkan ukuran kebaikan yang terbaik bila dibandingkan dengan Random Forest berdasarkan rata-rata ukuran kebaikan dari 100 kali perulangan. Model terbaik XGBoost yang akan dijelaskan menggunakan metode Global Surrogate dan Shapley Additive Explanations (SHAP) adalah model yang menghasilkan akurasi 91.29%, F1-score 92.91%, dan AUC 0.7967. Global surrogate yang menggunakan model pengganti pohon klasifikasi dapat menjelaskan karakteristik dari industri pelaku litbang berdasarkan prediktor yang digunakan dalam pembuatan model black-box. Berdasarkan model pengganti, diperoleh hasil bahwa pohon klasifikasi yang dihasilkan disusun dari 5 prediktor. Berdasarkan hasil tersebut, diperoleh karakteristik dari industri yang memiliki peluang besar dalam melakukan litbang secara rutin. Diketahui bahwa industri yang memiliki karakteristik rata-rata jumlah peneliti lebih dari 2 orang, bukan perusahaan multinasional, dan rata-rata pertumbuhan belanja litbang lebih dari atau sama dengan 0.16 memiliki peluang sebesar 0.95 untuk melakukan litbang secara rutin setiap tahun. Sementara itu industri yang memiliki karakteristik rata-rata pertumbuhan belanja litbang antara -0.03 dan 0.031, rata-rata jumlah peneliti kurang dari 7 orang hanya memiliki peluang sebesar 0.063 yang berarti bahwa industri tersebut adalah industri yang tidak rutin melakukan litbang. SHAP digunakan untuk menjelaskan model terbaik XGBoost berdasarkan Nilai Shapley. Berdasarkan Nilai Shapley, prediktor yang paling besar kontribusinya terhadap peluang industri melakukan litbang rutin atau tidak rutin adalah rata-rata pertumbuhan belanja litbang. Sementara itu, peubah penjelas BUMN adalah peubah yang paling kecil kontribusinya. Penjelasan dari kedua metode ini, dapat disimpulkan bahwa prediktor yang berpengaruh pada pembentukan model terbaik XGBoost adalah rata-rata pertumbuhan belanja litbang, rata-rata jumlah peneliti, dan rata-rata jumlah SDM litbang.
URI: http://repository.ipb.ac.id/handle/123456789/108674
Appears in Collections:MT - Mathematics and Natural Science

Files in This Item:
File Description SizeFormat 
Cover, Lembar Pengesahan, Prakata, Daftar Isi.pdf
  Restricted Access
Cover1.31 MBAdobe PDFView/Open
G152190091_Endang Febrian Khusnul Hidayati.pdf
  Restricted Access
Fulltext16.23 MBAdobe PDFView/Open
Lampiran.pdf
  Restricted Access
Lampiran703.09 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.