Kajian Metode Seleksi Fitur Filter, Wrapper, dan Embedded pada Pemodelan Klasifikasi
Abstract
Seleksi fitur adalah suatu metode yang digunakan dalam mencari fitur atau peubah (variable) yang relevan untuk meningkatkan kinerja model dan mengurangi banyaknya peubah (dimensi dari data). Seleksi fitur digunakan sebagai metode tambahan untuk mencegah terjadinya overfitting atau meningkatnya error pada tahap pembelajaran model. Metode seleksi fitur dibagi menjadi 3 cara, yaitu filter, wrapper, dan embedded. Pada cara filter terdapat 2 metode yang digunakan, yaitu Information Gain dan Chi-Squared. Pada metode seleksi fitur wrapper menggunakan 2 metode, yaitu Sequential Forward Selection dan Genetic Algorithm. Seleksi fitur dengan metode embedded menggunakan 2 metode, yaitu Least Absolute Shrinkage and Selection Operator dan Elastic Net.
Penelitian ini mengkaji metode seleksi fitur dengan pendekatan literatur, penggunaan data simulasi, dan data empiris. Pendekatan secara literatur digunakan untuk melihat hasil penelitian terdahulu dalam melakukan seleksi fitur terhadap performa model yang dihasilkan. Data simulasi digunakan untuk melihat kemampuan metode dalam melakukan seleksi fitur tidak relevan dan akurasi model yang dihasilkan. Data simulasi yang digunakan terdapat 2 jenis, yaitu n =150 dan p = 50 dan data dimensi tinggi n =100 dan p = 50. Data empiris digunakan untuk melihat performa model yang dihasilkan dengan penggunaan berbagai jenis dataset sekunder. Data empiris yang digunakan diperoleh dengan internet pada repository UCI machine learning dan 4 jenis dataset yang digunakan adalah heart failure clinical records, gallstone, Nomao, dan Darwin.
Tujuan dari penelitian ini adalah Mengkaji karakteristik (waktu komputasi dan nilai kebaikan) dari model filter, wrapper, dan embedded melalui kajian literatur, simulasi dan empirik. Kajian literatur dilakukan untuk melihat hasil dari penelitian terdahulu mengenai penggunaan seleksi fitur. Kajian simulasi digunakan untuk melihat kemampuan metode seleksi fitur dalam melakukan eliminasi fitur tidak relevan dan mempertahankan fitur relevan. Kajian empirik dilakukan untuk melihat kemampuan seleksi fitur dalam menghasilkan karakteristik model yang dihasilkan.
Pada hasil kajian literatur metode seleksi fitur dapat meningkatkan performa model berupa peningkatan akurasi maupun parameter model lainnya, selain itu seleksi fitur dapat meningkatkan performa model pada data tak seimbang. Penggunaan metode seleksi fitur perlu diperhatikan dalam penggunaan dataset dan algoritma pemodelan yang digunakan, karena pada dataset tertentu seleksi fitur dapat meningkatkan performa model namun juga dapat menurunkan performa model.
Hasil kajian simulasi menunjukan metode seleksi fitur embedded seperti LASSO dan EN dapat mempertahankan fitur relevan lebih baik dibandingkan dengan metode lainnya. LASSO baik dalam mempertahankan fitur relevan dengan dataset simulasi n = 150 dan p = 50, sedangkan EN dapat mempertahankan fitur relavan dengan baik pada dataset berdimensi tinggi n = 50 dan p =100. Pada hal melakukan eliminasi pada fitur tidak relevan LASSO memiliki persentase eliminasi tinggi pada setiap fitur tidak relevan dibandingkan metode filter dan wrapper.
Kajian empiris dengan menggunakan 4 jenis dataset menunjukan metode filter dan wrapper dapat melakukan reduksi fitur sebanyak ±50% pada setiap dataset, sedangkan embedded seperti LASSO melakukan reduksi antara 5 – 30% dari total jumlah fitur dan EN tidak melakukan reduksi fitur pada data berdimensi tinggi melainkan hanya melakukan penyusutan koefisien tanpa reduksi. Wrapper memiliki waktu komputasi yang tinggi dibandingkan metode filter dan embedded. Performa model yang dihasilkan metode wrapper unggul pada dataset dengan jumlah fitur sedikit dan data dengan kelas seimbang dengan model regresi logisitik menghasilkan nilai kebaikan model lebih tinggi 2 – 5% dibandingkan metode filter dan embedded. Metode embedded seperti LASSO memberikan performa model regresi logistik lebih baik pada dataset dengan jumlah fitur tinggi dan berdimensi tinggi, sedangkan metode filter meningkatkan performa model random forest 8 – 10% pada dataset dengan kelas tak seimbang.
Metode wrapper memerlukan waktu komputasi yang lebih tinggi dibandingkan dengan filter dan embedded yang mana ditentukan berdasarkan penggunaan algoritma sebagai estimator. Metode filter menghasilkan nilai kebaikan model yang lebih baik dengan pemodelan random forest pada setiap jenis dataset, namun kurang baik dalam mempertahankan fitur relavan karena eliminasi dilakukan secara manual pada batas nilai tertentu. Metode wrapper menghasilkan nilai kebaikan model regresi logistik lebih baik dibandingkan pada nilai kebaikan model random forest terutama pada data dengan kelas tidak seimbang, serta kurang baik dalam mempertahankan fitur relevan. Metode embedded memberikan nilai kebaikan model regresi logistik lebih baik dibandingkan dengan random forest pada data berdimensi tinggi, serta baik dalam mempertahankan fitur relevan dengan fungsi penalti.
