Please use this identifier to cite or link to this item:
Title: Implementasi Regresi dan Klasifikasi Sparse Group LASSO dalam Seleksi Metabolit Sekunder yang Berperan Pada Aktivitas Antioksidan Sembung
Authors: Afendi, Farit Mochamad
Soleh, Agus Mohamad
Mattjik, Ahmad Ansori
Fikri, Muhammad
Issue Date: 2022
Publisher: IPB University
Abstract: Data berdimensi tinggi (p>>n) merupakan permasalahan yang sering terjadi pada dunia penelitian. Penelitian ini sering terjadi pada bidang bioinformatics maupun chemometrics yang berkaitan dengan gen, senyawa, maupun sejenisnya. Dalam pengolahan data ini, melakukan pemodelan dengan penggunaan model regresi berganda biasa menjadi sulit dilakukan. Hal ini diakibatkan hasil dalam pendugaan paramater model menjadi sulit diinterpretasikan dengan banyaknya peubah yang dianalisis. Pengembangan metode regularisasi dengan menambahkan fungsi penalti norm l_1 pada model regresi merupakan solusi yang dapat digunakan, yang disebut sebagai Least Absolute Shrinkage and Selection Operator Method (LASSO). Namun dalam kasus penerapan, beberapa peubah memiliki karakteristik yang sama perlu dilakukan pengelompokan peubah. Selain memiliki kesamaan karakteristik, pengelompokan peubah ini dilakukan untuk mempermudah dalam identifikasi interpretasi hasil yang didapat. Dikembangkan metode Group Least Absolute Shrinkage and Selection Operator Method (Group LASSO). Metode ini fokus pada pereduksian dan seleksi pada kelompok peubah. Metode Group LASSO mengabaikan peubah yang tidak signfikan dalam kelompok peubah yang signifikan. Sparse Group Least Absolute Shrinkage and Selection Operator Method (SGL) melengkapi kekurangan dari group LASSO, yaitu melakukan seleksi kelompok peubah dan elemen kelompok peubah secara bersamaan. Dapat teramati peubah yang tidak signifikan pada kelompok peubah signifikan. Penerapan pada kasus penelitian yang berbasis spektrometri sering mengalami hal tersebut, yaitu mengenai identifikasi kandungan senyawa pada tanaman herbal. Salah satunya adalah tanaman sembung (Blumea balsamifera). Sembung (Blumea balsamifera) merupakan salah satu tumbuhan yang dapat digunakan sebagai obat herbal. Sembung (Blumea balsamifera) termasuk jenis tanaman liar yang mudah dibudidayakan. Senyawa-senyawa yang terdapat pada sembung merupakan bahan aktif biofarmaka. Sembung memiliki Kandungan senyawa metabolit sekunder, yaitu flavonoid, saponin, glikosida, alkaloid, dan terpenoid. Dari kandungan senyawa tersebut dapat ditentukan senyawa metabolit sekunder yang berpengaruh terhadap aktivitas antioksidan, yang dapat dimanfaatkan sebagai campuran obat atau makanan. Diketahui bahwa aktivitas antioksidan merupakan aktivitas senyawa yang dapat meredam efek negatif dari radikal bebas. Aktivitas antioksidan juga dapat diamati berdasarkan kekuatan dari aktivitas antioksidannya yaitu antioksidan kuat dan lemah. Maka dari pada penelitian ini dilakukan dua pendekatan metode inferensi statistika yaitu Regresi SGL dan Klasifikasi SGL. Pengukuran performa dua metode ini dilakukan dengan melakukan kajian simulasi dari beberapa Skenario. Tiap Skenario diberikan perlakuan yang berbeda yaitu pada proses pengelompokan jumlah elemennya. Kemudian dilanjutkan dengan menerapkan kedua metode tersebut pada proses identifikasi kandungan senyawa Metabolit Sekunder Sembung. Identifikasi kandungan senyawa Metabolit Sekunder pada Sembung dapat dilakukan melalui teknik spektrometri, yaitu teknik Fourrier Transform Infrared (FTIR) dan Liquid chromatography-mass spectrometry (LC-MS). Hasil proses FTIR dan LC-MS ini akan menghasil peubah yang sangat banyak dengan beberapa peubah memiliki karakteristik yang sama. Untuk mengidentifikasi senyawa yang berpengaruh terhadap aktivitas antioksidan perlu pemodelan regresi dengan metode regularisasi dan memerhatikan pengelompokan peubah, yaitu metode SGL. Penelitian ini bertujuan untuk mengkaji model Regresi SGL dan Klasfikasi SGL dalam seleksi kelompok peubah serta mengimplementasi model tersebut mengidentifikasi kandungan senyawa metabolit sekunder Sembung terhadap aktivitas antioksidan. Berdasarkan hasil kajian simulasi dalam melakukan penentuan kelompok peubah, pemilihan jumlah elemen kelompok peubah yang berbeda-beda tidak mempengaruhi hasil dari regresi dan klasifikasi SGL. Namun dilihat dari ragam seleksi parameter (β_i=0) yang dihasilkan setelah pengulangan sebanyak 100 kali, model regresi SGL lebih stabil dibandingkan dengan klasifikasi SGL. Dan berdasarkan analisis data terapan, didapat hasil identifikasi senyawa yang terkandung pada tanaman sembung (Blumea Balsamifera) terhadap aktivitas antioksidan dari dua pendekan memiliki kesamaan kelompok peubah yang signifikan. Namun dilihat berdasarkan peubah, model Regresi Sparse Group Lasso senyawa metabolit sekunder yang teridentifikasi signifikan adalah Castanospermine (1,6,7,8 tetrahydroxyoctahydroindolizine) dan teridentifikasi kelompok gugus fungsinya yaitu -CH3 stretching, -CH2, C-H, C-H Aldehid dan C=C (Aromatic and Alifatic), C=N, Stretching –C=O inorganic carbonate. Hal ini sejalan terdapat kesesuaian antara gugus fungsi dan senyawa metabolit sekunder yang didapat yaitu Senyawa Castanospermine dengan gugus fungsi penyusunnya adalah Stretching –C=O inorganic carbonate. Sedangkan model Klasifikasi Sparse Group Lasso senyawa metabolit sekunder yang teridentifikasi signifikan adalah 3-(4-Isopropylphenyl)-2-methylpropanal dan tidak teridentifikasi gugus fungsinya. Kesimpulan penelitian ini, hasil kajian simulasi mengenai pendugaan paramater model regresi dan klasifikasi SGL menunjukan bahwa, model regresi SGL cenderung lebih stabil. Terlihat dari hasil ragam pendugaan yang kecil berbanding dengan ragam dari klasifikasi SGL. Hasil beberapa Skenario juga menunjukan bahwa tidak terdapat perbedaan yang signifikan dari model regresi dan klasifikasi SGL. Dari hasil terapan teridentifikasi senyawa metabolit sekunder yang signifikan berpengaruh adalah Castanospermine (1,6,7,8 tetrahydro xyoctahydroindolizine) pada model regresi SGL dan 3-(4-Isopropylphenyl)-2-methylpropanal pada model klasifikasi SGL.
High-dimensional data (p>>n) is a problem that often occurs in the world of research. This research often occurs in bioinformatics and cheminformatics related to genes, compounds, and the like. In processing this data, modelling the usual multiple regression model becomes difficult. This is due to the results in the estimation of model parameters being difficult to interpret with many variables analyzed. The development of the regularization method by adding the norm l_1 penalty function to the regression model is a solution that can be used. This method is known as Least Absolute Shrinkage and Selection Operator Method (LASSO). However, in the case of application, several variables have the same characteristics, so group the variables must be grouped. In addition to having the same characteristics, the grouping of these variables is done to make it easier to identify the interpretation of the results obtained. The Group Least Absolute Shrinkage and Selection Operator Method (Group LASSO) was developed. This method focuses on the reduction and selection of groups of variables. The Group LASSO method ignores non-significant variables in the group of significant variables. The Sparse Group Least Absolute Shrinkage and Selection Operator Method (SGL) complements the shortcomings of the LASSO group, namely selecting the group of variables and elements of the variable group simultaneously so that insignificant variables can be observed in the influential group of variables. Sembung (Blumea balsamifera) is one of the plants that can be used as herbal medicine. Sembung (Blumea balsamifera) is a wild plant that is easy to cultivate. The compounds contained in Sembung are active biopharmaceutical ingredients. Sembung contains active compounds, namely flavonoids, saponins, glycosides, alkaloids, and terpenoids. From the content of these compounds, it can be determined secondary metabolites that affect antioxidant activity so that they can be used as a mixture of drugs or food. It is known that antioxidant activity is the activity of compounds that can reduce the harmful effects of free radicals. Antioxidant activity can also be observed based on its antioxidant activity, namely solid and weak antioxidants. So from this research, two approaches to statistical inference methods were carried out, namely SGL Regression and SGL Classification. The content of secondary metabolites in Sembung can be identified through spectrometry techniques, namely Fourier Transform Infrared (FTIR) and Liquid chromatography-mass spectrometry (LC-MS) techniques. The FTIR and LC-MS processes will produce a large number of variables with several variables having the same characteristics. Therefore, to identify compounds that affect antioxidant activity, it is necessary to use regression modelling with the regularization method and pay attention to the grouping of variables, namely the SGL method. Thus, this study aims to examine the SGL Regression and SGL Classification models in selecting variable groups and to implement the model to identify the content of Sembung secondary metabolites on antioxidant activity. Based on the simulation study results in determining the group of variables, the selection of the number of elements of different groups of variables does not affect the regression and SGL classification results. However, judging from the variety of parameter selection (β_i=0) generated after 100 repetitions, the SGL regression model is more stable than the SGL classification. Furthermore, based on the analysis of applied data, the results of identifying compounds contained in the Sembung plant (Blumea Balsamifera) on the antioxidant activity of the two approaches have the same significant group of variables. However, judging by the variables, the Sparse Group Lasso regression model identified significant secondary metabolites as Castanospermine (1,6,7,8 tetrahydroxyocta-hydroindolizine) and the functional groups identified were -CH3 stretching, -CH2, C-H, C-H Aldehydes and C=C ( Aromatic and Aliphatic), C=N, Stretching –C=O inorganic carbonate. This result aligns with the compatibility between the functional group, and the secondary metabolite compound obtained, namely Castanospermine Compound with its constituent functional group is Stretching –C=O inorganic carbonate. Meanwhile, the Sparse Group Lasso Classification model identified significant secondary metabolites as 3-(4-Isopropylphenyl)-2-methyl propanal and their functional groups were not identified. The results of the simulation study regarding the estimation of the regression model parameters and the SGL classification show that the SGL regression model tends to be more stable. It can be seen from the results of the small estimation variance compared to the variety of the SGL classification. The results of several scenarios also show that there is no significant difference between the regression model and the SGL classification. From the results of regression applied, the secondary metabolites that have an effect are Castanospermine ( tetrahydroxytahydroindoliz) in the SGL model and 3-(4-Ipropylphenyl)-2-methylpropanal in the SGL classification model.
Appears in Collections: MT - Mathematics and Natural Science

