Performa Sparse Group Lasso Dan Overlapping Group Lasso Serta Aplikasinya Pada Data Inframerah Senyawa Sembung
Date
2022Author
Kusnaeni, Kusnaeni
Soleh, Agus Mohamad
Afendi, Farit Mochamad
Metadata
Show full item recordAbstract
Multikolinearitas yang hampir sempurna adalah kondisi antar peubah penjelas terdapat hubungan linear yang hampir sempurna sehingga mengakibatkan determinan (X’X)≈ 0, hal tersebut dikenal sebagai kondisi ill conditioned. Multikolinearitas membuat metode kuadrat terkecil dalam menduga koefisien peubah memiliki ragam yang besar. Penyeleksian peubah bisa menjadi salah satu alternatif dalam menyelesaikan masalah multikolinearitas. Adapun perluasan dari penyeleksian peubah adalah penyeleksian yang berbasis grup, ketika penyeleksiannya pada koefisien peubah grup. Berikut metode peneyeleksian berbasis grup diantaranya group nonnegative, group least angel regression: lasso modification (group LARS), dan Group lasso. Namun, metode-metode tersebut menganggap bahwa setiap peubah hanya muncul pada satu grup peubah. Faktanya, banyak kondisi yang terjadi jika satu peubah bisa muncul pada beberapa grup peubah. Pada penelitian ini akan digunakan metode penyeleksian grup yang memerhatikan grup sekaligus anggota grupnya, kemudian akan diterapkan untuk mengkaji performa metode tersebut pada tanaman obat daun sembung. Blumea balsamifera atau sembung merupakan jenis tanaman yang masuk dalam genus Blumea, Family Astereceae (Compositae) yang digunakan sebagai obat. Daun pada tanaman sembung mengandung senyawa metabolit sekunder golongan alkaloid, steroid, flavonoid, saponin dan fenolik. Meninjau kandungan metabolit sekunder pada daun sembung merupakan langkah efektif untuk pemanfaatan daun sembung lebih jauh. Tujuan dari penelitian ini untuk mengetahui performa dari metode Penalized Regression berbasis grup menggunakan data simulasi dan data Fourier Transform Infrared senyawa sembung. Metode penalized berbasis grup yang digunakan dalam penelitian ini adalah metode Overlapping Group Lasso dan Sparse Group Lasso.
Kajian data simulasi yang digunakan pada penelitian ini merupakan data bangkitan dengan banyaknya amatan n=20 dan peubah penjelas sebanyak delapan peubah melalui sebaran multivariat normal X~ N_P (1,∑) dengan matriks kovarians ∑= m_(8×8); m_jk=ρ_jk; jika j=k maka ρ_jk=1; jika j≠k maka ρ_jk=(0,1;0,9) dengan j dan k=1,2,…,8. Peubah respon Y = X*β + ε dibangkitkan dengan model persamaan regresi linier dari 8 peubah X yang sudah dibangkitkan sebelumnya ditambah dengan ε~Normal (0,0.5) dengan tiga skenario nilai koefisien peubah: β=(2,2,0,0,0,0,2,2),β= (0,0.5,0.5,0.5,0,0,0,0), β=(0,0,0,2,0.5,0,0,0).
Data aktual yang digunakan pada penelitian ini adalah data hasil spektroskopi Fourier Transform Infrared dari daun sembung. Data terdiri dari 35 pengamatan dan 1866 peubah penjelas. Kemudian mengelompokkan data spektrum hasil Fourier Transform Infrared berdasarkan tabel Fourier Transform Infrared menurut Mecozzi, sehingga memungkinkan sasaran penyeleksian peubahnya adalah gabungan beberapa spektrum (peubah penjelas) yang membentuk kelompok-kelompok gugus fungsional, sehingga bukan lagi satu individu peubah penjelas saja. Berdasarkan kasus tersebut Sparse Group Lasso dan Overlapping Group Lasso adalah solusinya. Metode Sparse Group Lasso menyusutkan peubah tidak hanya dilakukan pada level grup tetapi juga penyustan peubah dilakukan didalam grup itu sendiri. Metode Overlapping Group Lasso juga menyelesaikan permasalahan penyusutan peubah antar grup serta peubah dalam grup yang saling tumpah tindih.
Pendugaan koefisien parameter β > 0 menggunakan metode Sparse Group Lasso pada kajian simulasi cenderung buruk dalam menduga koefisien parameter sedangkan metode Lasso dan Overlapping Group Lasso cenderung baik dalam menduga koefisien parameter β > 0. Metode Lasso dan Overlapping Group Lasso cenderung lebih baik dalam menyeleksi peubah (koefisien parameter β=0) daripada metode Sparse Group Lasso, pada metode Sparse Group Lasso variansinya lebih besar dan cenderung melakukan overestimates dalam menyeleksi peubah (koefisien parameter β=0). Ukuran panjang grup tidak berpengaruh pada performa Sparse Group Lasso maupun Overlapping Group Lasso, hanya saja pada teknik Overlapping Group Lasso koefisien parameter β=0 yang tumpang tindih pada beberapa kelompok memiliki outlier yang kecil dibandingkan dengan koefisien parameter β=0 yang tidak tumpang tindih.
Seleksi regresi Overlapping Group Lasso pada data Fourier Transform Infrared senyawa sembung menemukan gugus fungsi yang berpengaruh terhadap antioksidan adalah SiO2, CN Amide III Band, CH aliphatic Bending Group, Polyphenol, C=O Amide II Band, C=O Group Quinone Compounds. Hasil seleksi regresi Sparse Group Lasso pada data Fourier Transform Infrared senyawa sembung menemukan gugus fungsi yang berpengaruh terhadap antioksidan adalah CN Amide II Band dan CH and CH2 stretching aliphatic group. Seleksi peubah untuk menduga gugus fungsi yang berpengaruh terhadap antioksidan daun sembung menggunakan metode regresi Overlapping Group Lasso lebih baik dibandingkan dengan metode Sparse Group Lasso.
Kata kunci: Seleksi peubah, Overlapping Group Lasso Regression, Sparse Group Lasso Regression. Almost perfect multicollinearity is the condition between the explanatory variables that there is an almost perfect linear relationship, resulting in the determinant (X'X) 0. It is known as an ill-conditioned condition. Multicollinearity makes the least squares method in estimating the coefficients of variables with a significant variance. The selection of variables can be an alternative in solving multicollinearity problems. The expansion of variable selection is group-based selection, where the selection is on the group variable coefficients. The following group-based selection methods include the non-negative group, least angel regression group: lasso modification (LARS group), and group lasso. However, these methods assume that each variable only appears in one group of variables. Many conditions occur if one variable can appear in several groups of variables. In this study, a group selection method will be used that pays attention to the group and its members. Then it will be applied to assess the method's performance on the medicinal plant leaves sembung. Blumea balsamifera or sembung is a type of plant that belongs to the genus Blumea, Family Asteraceae (Compositae), which is used in medicine. The leaves of the sembung plant contain secondary metabolites of alkaloids, steroids, flavonoids, saponins, and phenolic compounds. Reviewing the content of secondary metabolites in sembung leaves is a practical step for further utilization of sembung leaves. This study aimed to determine the performance of the group-based Penalized Regression method in selecting the functional groups of sembung leaves that affect antioxidants. The group-based penalized method used in this study is the Overlapping Group Lasso and Sparse Group Lasso methods.
The study of the simulation data used in this study is the generation data with the number of observations n=20 and the explanatory variable as many as eight variable using a normal multivariate distribution X~ N_P (1,∑) with a covariance matrix ∑= m_(8×8); m_jk=ρ_jk; if j=k then ρ_jk=1 else ρ_jk=(0.1;0.9) and j and k=1,2,…,8. The response variable Y = X*β + ε is generated by using a linear regression equation model of 8 X variables that have been previously generated plus ~Normal (0,0.5) with the scenario of the variable coefficient value: β=(2,2,0,0,0,0,2,2),β= (0,0.5,0.5,0.5,0,0,0,0),β=(0,0,0,2,0.5,0,0,0).
The actual data used in this research is the Fourier Transform Infrared spectroscopy data from sembung leaves. The data consists of 35 observations and 1866 explanatory variables. Grouping the spectral data of Fourier Transform Infrared results based on the Fourier Transform Infrared table according to Mecozzi, thus enabling the target of selecting the variables to be a combination of several spectra (explanatory variables) that form functional groups, not just one individual explanatory variable. Based on this case, Sparse Group Lasso and Overlapping Group Lasso are the solutions. The Sparse Group Lasso method of shrinking variables is carried out at the group level, and variable adjustment is carried out within the group itself. The Overlapping Group Lasso method also solves the problem of shrinking variables between groups and variables in overlapping groups.
Estimating the parameter β > 0 using the Sparse Group Lasso method in the simulation study tends to be poor in estimating the parameter coefficients, while the Lasso and Overlapping Group Lasso methods tend to be good in estimating the β > 0. The Lasso and Overlapping Group Lasso methods tend to be better in selecting variables ( β =0) than the Sparse Group Lasso method. In the Sparse Group Lasso method, the variance is more significant and tends to overestimate in selecting variables (β =0). The size of the group length does not affect the performance of the Sparse Group Lasso and the Overlapping Group Lasso. In the Overlapping Group Lasso technique, the β =0, which overlaps in several groups, has small outliers compared to the non-overlapping β =0.
The regression selection of Overlapping Group Lasso on Fourier Transform Infrared data of sembung compounds found that the functional groups that affected antioxidants were SiO2, CN Amide III Band, CH aliphatic Bending Group, Polyphenol, C=O Amide II Band, C=O Group Quinone Compounds. The results of the Sparse Group Lasso regression selection on the Fourier Transform Infrared data of sembung compounds found that the functional groups that affected antioxidants were CN Amide II Band and CH and CH2 stretching aliphatic group. The selection of variables to estimate the functional groups that affect the antioxidants of sembung leaves using the Overlapping Group Lasso regression method is better than the Sparse Group Lasso method.
Keywords: Selection of variables, Overlapping Group Lasso Regression, Sparse Group Lasso Regression.