Pengembangan Ensemble Variable Importance untuk Beberapa Model Machine Learning Menggunakan Algoritma Metaheuristik

Rusyana, Asep

dc.contributor.advisor	Wigena, Aji Hamim
dc.contributor.advisor	Sumertajaya, I Made
dc.contributor.advisor	Sartono, Bagus
dc.contributor.author	Rusyana, Asep
dc.date.accessioned	2024-06-13T06:03:27Z
dc.date.available	2024-06-13T06:03:27Z
dc.date.issued	2024-06-12
dc.identifier.uri	http://repository.ipb.ac.id/handle/123456789/152799
dc.description.abstract	Variable importance adalah salah satu output dari model machine learning. Ada tiga metode variable importance yang dikenal luas saat ini, yaitu variable importance permutasi, shapley additive explanations feature importance (SHAP-FI), dan leave out covariate (LOCO). Setiap model machine learning akan menghasilkan variable importance yang berbeda meskipun metode dan datanya identik. Misalkan, variable importance dari random forest berbeda dengan variable importance dari extreme gradient boosting. Hal ini akan menimbulkan kesulitan interpretasi dalam menentukan tingkatan pentingnya peubah prediktor. Oleh karena itu, penelitian ini mengembangkan metode untuk menggabungkan beberapa variable importance menjadi hanya satu variable importance. Gabungan variable importance ini disebut juga ensemble variable importance. Beberapa metode penggabungan variable importance yang tersedia saat ini adalah rata-rata atau modus variable importance dan variable importance terboboti. Penelitian ini mengembangkan metode penggabungan dengan menggunakan algoritma metaheuristik. Algoritma metaheuristik yang terkenal saat ini antara lain local search, genetics algorithm, simulated annealing, cuckoo search, dan tabu search. Penelitian ini menggunakan algoritma simulated annealing sebagai kajian 1, simulated annealing yang dimodifikasi sebagai kajian 2, dan cuckoo search sebagai kajian 3. Algoritma-algoritma ini mempunyai fungsi objektif yang dapat mengidentifikasi apakah solusi sudah mencapai optimal. Algoritma simulated annealing menggunakan solusi awal variable importance dari angka acak. Algoritma simulated annealing yang dmodifikasi menggunakan solusi awalnya rataan atau modus. Modifikasi ini diharapkan bisa memperpendek iterasi dalam mencapai nilai objektif optimal. Adapun algoritma cuckoo search adalah metode alternatif dengan solusi awal lebih dari satu. Data penelitiannya adalah data simulasi dan empiris. Data simulasi dibagi menjadi tiga skenario. Skenario tersebut adalah tidak ada korelasi, korelasi sedang, dan korelasi tinggi antar peubah prediktor. Data simulasi terdiri atas 24 peubah prediktor yang mempunyai sebaran normal ganda. Peubah responnya mempunyai dua kelas (0 dan 1). Banyaknya amatan adalah 1.000 sedangkan ulangannya sebanyak 100 kali. Adapun data empiris adalah data keluarga rawan pangan yang bersumber dari survey sosial ekonomi nasional (SUSENAS) 2020, Badan Pusat Statistik (BPS) Jawa Barat. Data ini memiliki 24 peubah prediktor yang berskala nominal, ordinal, dan rasio. Data tersebut terdiri atas 24.769 keluarga yang berskala biner (0 = keluarga tidak rawan pangan, 1 = keluarga rawan pangan). Banyaknya keluarga tidak rawan pangan adalah 19.418 keluarga sedangkan banyaknya keluarga rawan pangan adalah 5.351 keluarga. Data simulasi digunakan untuk mengidentifikasi karakterisitk dari ensemble variable importance sedangkan data empiris digunakan untuk penerapan metode dan evaluasinya. Banyaknya kelas pada data empiris diseimbangkan dengan metode SMOTE sebelum data tersebut digunakan. Selanjutnya, variable importance random forest, XGBoost, neural network, dan support vector machine dibangun dengan metode variable importance permutasi. Variable importance dari model machine learning ini mempunyai akurasi yang tinggi karena hyperparameter yang optimal dipilih dengan bantuan perangkat lunak python. Kemudian, empat variable importance tersebut digabungkan dengan menggunakan simulated Annealing sebagai kajian 1, simulated annealing yang dimodifikasi sebagai kajian 2, dan algoritma cuckoo search sebagai kajian 3. Ensemble variable importance mempunyai akurasi tinggi dan nilai objektif optimal ketika antar peubah prediktornya tidak ada atau rendah korelasinya. Nilai objektif disebut optimal jika nilainya sudah konvergen mendekati satu. Ensemble variable importance lebih unggul dibandingkan dengan variable importance penyusunnya. Iterasi simulated annealing lebih panjang dibandingkan algoritma simulated annealing yang solusi awalnya dimodifikasi. Ensemble variable importance mencapai nilai objektif dan akurasi optimal jika banyaknya peubah prediktor lebih dari sepuluh. Nilai akurasi maksimum yang dapat dicapai adalah satu yang merupakan nilai makimum dari korelasi Spearman. Hasil evaluasi lainnya, terdapat sifat ketidakpastian pada metode ensemble ini. Solusi mempunyai sifat tidak pasti artinya perhitungan dapat menghasilkan solusi yang berbeda pada setiap perhitungan algoritma metaheuristik tetapi tidak menyebabkan peubah prediktor berubah signifikansinya	id
dc.description.abstract	Variable importance is one of the outputs of a machine learning model. Three variable importance methods are widely known today: permutation variable importance, shapley additive explanations feature importance (SHAP-FI), and leave-out covariate (LOCO). Each machine learning model will produce different variable importance measures even though the methods and data are identical. For example, the variable importance of random forest is different from the variable importance of extreme gradient boosting. The difference will create interpretive difficulties in determining the importance of predictor variables. Therefore, this paper proposes combining several variable importance measures into only one variable importance measure. This combination of variable importance measures is also called ensemble variable importance. Some available merging methods today are mean or mode variable importance and weighted variable importance. The research uses metaheuristic algorithms to join variable importance measures. The widely known metaheuristics are local search, genetics algorithm, simulated annealing, cuckoo search, and taboo search. This research used simulated annealing in study 1, modified simulated annealing in study 2, and cuckoo search algorithms in study 3. These algorithms have objective functions that can identify whether the solution reaches optimal. Simulated annealing algorithms use initial variable importance solutions of random numbers. The modified simulated annealing algorithm uses the mean or mode initial solution. This modification is expected to shorten the iteration in achieving optimal objective values. The cuckoo search algorithm is an alternative method with multiple initial solutions. The research data are simulation and empirical data. The simulation data is divided into three scenarios. The scenario has no correlation, medium, or high correlation among predictor variables. The data have a multiple normal distribution, 24 predictor variables, two classes of response variables, 1,000 observations, and 100 repetitions. Meanwhile, empirical data is food insecure experience scale (FIES) data sourced from the 2020 National Socioeconomic Survey (Susenas) BPS West Java. This data has 24 predictor variables on nominal, ordinal, and ratio scales, 24,769 families that are not food insecure, totalling 19,418 families and those that are food insecure, counting 5,351 families. Simulation data is used to identify the characteristics of the ensemble variable importance, while empirical data is used for applying methods and their evaluation. Classes on empirical data are balanced first with the SMOTE method. Furthermore, each variable importance random forest, XGBoost, neural network, and support vector machine is built with the permutation variable importance method. Variable importance measures of machine learning models are highly accurate because optimal hyperparameters are selected with the grid search technique. Then, simulated annealing, modified simulated annealing, and cuckoo search algorithms were applied to combine the four variable importance measures. Ensemble variable importance has high accuracy and optimal objective value when there is no or low correlation among predictor variables. An objective value is called optimal when it is already convergent close to one. The accuracy of the ensemble variable importance is better than the constituent variable importance. Iteration in getting optimal ensemble variable importance of the simulated annealing algorithm is more than the modified simulated annealing algorithm with a random initial solution. Ensemble variable importance achieves optimal objective values and accuracy if the number of predictor variables is more than ten and there is no correlation among predictor variables. The maximum accuracy value that can be achieved is one. Another evaluation result is that this ensemble method has characteristics of uncertainty. In other words, solutions may differ when the algorithm is run at different times, but the predictor variables do not change their significance.	id
dc.description.sponsorship	Lembaga Pengelola Dana Pendidikan (LPDP) skema Beasiswa Unggulan Dosen Indonesia - Dalam Negeri (BUDI-DN)	id
dc.language.iso	id	id
dc.publisher	IPB (Bogor Agricultural University)	id
dc.subject	Bogor Agricultural University (IPB)
dc.title	Pengembangan Ensemble Variable Importance untuk Beberapa Model Machine Learning Menggunakan Algoritma Metaheuristik	id
dc.title.alternative	Development of Ensemble Variable Importance for Several Machine Learning Models Using Metaheuristic Algorithm	id
dc.type	Dissertation	id
dc.subject.keyword	cuckoo search	id
dc.subject.keyword	FIES data	id
dc.subject.keyword	machine learning	id
dc.subject.keyword	simulated annealing	id
dc.subject.keyword	variable importance	id

Files in this item

Name:: Disertasi a.n. Asep Rusyana.pdf
Size:: 7.093Mb
Format:: PDF
Description:: Full Text

View/Open

This item appears in the following Collection(s)

DT - Mathematics and Natural Science [427]

Show simple item record