Pengembangan Metode Seleksi Peubah Menggunakan Pendekatan Simulated Annealing
Abstract
Salah satu pendekatan metaheuristik yang akan digunakan dalam penelitian ini adalah algoritme Simulated Annealing (SA) yang algoritmenya sendiri terinspirasi oleh proses metalurgi annealing. Algoritme ini menunjukkan keuntungan dalam menemukan global optimal dari fungsi yang diberikan yang akan digunakan dalam seleksi peubah. Untuk itu, dalam penelitian ini penulis akan menggabungkan jumlah ukuran tetangga dan pendekatan lain dengan beberapa modifikasi pada data simulasi untuk membandingkan antara dua fungsi yaitu fungsi Akaike Information Criterion (AIC) dan Bayesian Information Criterion (BIC). Dengan demikian, pendekatan modifikasi ini diharapkan akan menghasilkan seleksi peubah terbaik yang dapat diimplikasikan pada kasus data Online News Popularity (ONP). Oleh karena itu, penelitian ini bertujuan untuk mendapatkan modifikasi terbaik yang dapat digunakan dalam melakukan seleksi peubah menggunakan pendekatan SA. Selain itu, hasil dari modifikasi terbaik ini akan digunakan untuk implementasi pemilihan peubah pada kasus ONP.
Data yang digunakan dalam penelitian ini menggunakan dua data, yakni data simulasi dengan menggunakan 100 amatan yang terdiri atas 100 peubah dan satu peubah respon yang merupakan jumlah dari 10 peubah awal yang akan dilakukan pemilihan. Seleksi peubah dikatakan berhasil apabila ke-10 peubah tersebut berhasil terpilih dengan tepat pada peubah terpilih. Data tersebut akan dianalisis dengan teknik simulasi dengan beberapa modifikasi, yakni tanpa modifikasi, modifikasi dengan peningkatan jumlah solusi tetangga, modifikasi dengan peningkatan jumlah tetangga dan penggunaan seleksi peubah p-value, dan modifikasi dengan peningkatan jumlah tetangga dan batasan pemilihan peubah. Selain data simulasi, penelitian ini juga menggunakan data aplikasi, yakni kasus ONP yang terdiri atas 39644 amatan dan 59 peubah penjelas. Dari peubah tersebut akan dipilih peubah mana yang berpengaruh terhadap peubah respon berupa banyaknya berbagi situs (number of shares). Data aplikasi ini juga akan dianalisis menggunakan hasil modifikasi seleksi peubah dari hasil data simulasi yang ada. Hasil dari penggunaan kedua data tersebut kemudian akan diukur dengan ukuran kebaikan hasil seleksi peubah menggunakan akurasi, sensitivitas, spesifisitas, dan rataan geometri dari ketiga ukuran tersebut.
Hasil simulasi dengan metode tanpa modifikasi menunjukkan bahwa pada dasarnya rataan geometri untuk fungsi AIC sedikit lebih baik dibandingkan dengan fungsi BIC dengan nilai optimum terjadi pada suhu awal sebesar 10000. Adapun hasil simulasi dengan metode modifikasi dengan peningkatan jumlah solusi tetangga menunjukkan bahwa nilai sensitivitas dari kedua fungsi mencapai nilai hingga 100% dan nilai rataan geometri pada fungsi BIC yang lebih dari 80% sehingga hasil ini lebih baik dibandingkan dengan rataan geometri pada fungsi AIC. Pada modifikasi ini pula menghasilkan nilai optimum pada saat tetangga mencapai sebanyak 5 tetangga. Di samping itu, pada modifikasi dengan peningkatan jumlah tetangga dan penggunaan seleksi peubah p-value menunjukkan bahwa nilai rataan geometri yang dihasilkan oleh kedua fungsi lebih baik dibandingkan hanya peningkatan jumlah tetangga saja. Pada modifikasi akhir berupa modifikasi dengan peningkatan jumlah tetangga dan batasan pemilihan peubah menunjukkan hasil yang lebih baik dibandingkan dengan modifikasi-modifikasi sebelumnya. Pada modifikasi ini pula nilai rataan geometri untuk fungsi BIC juga lebih baik dibandingkan dengan penggunaan fungsi AIC. Selain itu, modifikasi ini juga menghasilkan nilai rataan geometri yang semakin baik seiring dengan meningkatnya jumlah solusi tetangga dari kedua fungsi, serta pada jumlah tetangga sebanyak 100 tetangga menghasilkan nilai rataan geometri lebih dari 98%. Hasil dari simulasi ini kemudian diimplementasikan pada data ONP yang merupakan salah satu elemen terpenting dalam dunia digital untuk meningkatkan peringkat suatu situs. Pada seleksi peubah menggunakan modifikasi SA ini menunjukkan bahwa dari 59 peubah yang ada, terpilih peubah dianggap penting sebanyak 11 peubah, yakni berupa peubah v1, v2, v7, v11, v14, v25, v26, v27, v28, v44, dan v53. One of the metaheuristic approaches that will be used in this research is the Simulated Annealing (SA) algorithm, the algorithm itself is inspired by the metallurgical annealing process. This algorithm shows the advantage in finding the optimal global function given to be used in the selection of variables. To that end, in this study the author will combine the number of neighbor sizes and other approaches with some modifications to the simulation data to compare between the two functions, namely the Akaike Information Criterion (AIC) and Bayesian Information Criterion (BIC) functions. Thus, this modification approach is expected to result in the selection of the best variables that can be implicated in the case of Online News Popularity (ONP) data. Therefore, this study aims to obtain the best modifications that can be used in selecting variables using the SA approach. In addition, the results of this best modification will be used to implement the selection of variables in the ONP case.
The data used in this study uses two data, namely simulation data using 100 observations consisting of 100 variables and one response variable which is the sum of the 10 initial variables to be selected. Selection of variables is said to be successful if all 10 variables were chosen correctly in the selected variable. The data will be analyzed with simulation techniques with several modifications, namely without modification, modification with increasing number of neighbor solutions, modification with increasing number of neighbors and using p-value variable selection, and modification with increasing number of neighbors and limiting the selection of variables. In addition to simulation data, this study also uses application data, namely the ONP case consisting of 39644 observations and 59 explanatory variables. These variables will be chosen which influences the response variable in the form of number of shares. This application data will also be analyzed using the results of the modification of the variable selection from existing simulation data. The results from the use of the two data will then be measured by a measure of the goodness of the variable selection using the accuracy, sensitivity, specificity, and geometric mean of the three measurements.
The simulation results with the unmodified method show that basically the average geometry for the AIC function is slightly better than the BIC function with the optimum value occurring at an initial temperature of 10000. The simulation results with the modification method with an increase in the number of neighboring solutions indicate that the sensitivity values of the two functions reaching values of up to 100% and the geometric mean value of the BIC function is more than 80% so that this result is better than the geometry average of the AIC function. In this modification it also produces an optimum value when the neighbors reach as many as 5 neighbors. In addition, the modification by increasing the number of neighbors and using the p-value variable selection shows that the geometric mean value generated by the two functions is better than just increasing the number of neighbors. In the final modification in the form of modification by increasing the number of neighbors and limiting the selection of variables showed better results
compared to previous modifications. In this modification the geometric mean for the BIC function is also better than using the AIC function. In addition, this modification also results in a better geometric mean value along with the increasing number of neighboring solutions of the two functions, as well as a number of neighbors of 100 neighbors resulting in a geometric mean value of more than 98%. The results of this simulation are then implemented on the ONP data which is one of the most important elements in the digital world to improve the ranking of a site. In the selection of variables using this SA modification, it shows that out of 59 existing variables, selected variables are considered to be important as many as 11 variables, which are variables v1, v2, v7, v11, v14, v25, v26, v26, v27, v28, v44, and v53.