Perbandingan Metode Regresi Logistik Terpenalti pada Data Ekspresi Gen
View/ Open
Date
2019Author
Susanti, Ade
Afendi, Farit Mochamad
Sartono, Bagus
Metadata
Show full item recordAbstract
Salah satu data berdimensi tinggi adalah microarray. Microarray memuat data ekspresi gen yang terdiri atas pengamatan berkisar antara 10 sampai 100 dan puluhan ribu gen. Data ekspresi gen biasanya memiliki respons biner, yaitu pasien dengan jaringan normal dan jaringan kanker. Banyaknya peubah penjelas yang jauh lebih besar dari pada banyaknya pengamatan memungkinkan terjadi multikolinieritas. Oleh karena itu, seleksi peubah penting untuk mengidentifikasi peubah yang relevan dalam data berdimensi tinggi, termasuk data ekspresi gen. Salah satu metode yang tepat untuk melakukan analisis ekspresi gen dengan respons biner (pasien kanker dan pasien normal) adalah menggunakan regresi logistik terpenalti.
Pendugaan koefisien dalam regresi logistik terpenalti dilakukan dengan memaksimumkan log fungsi kemungkinan, tetapi dengan subjek pada fungsi yang diberikan penalti. Penalti memaksa koefisien regresi untuk menciut ke 0. Oleh sebab itu, regresi logistik terpenalti sering disebut sebagai metode penciutan atau regularisasi.
Pada penelitian ini dibandingkan 5 metode regresi logistik terpenalti. Metode-metode tersebut diantaranya, regresi gulud, LASSO, elastic net, SCAD, dan GELnet. Penelitian ini terdiri atas kajian simulasi dan kajian terapan dengan data riil. Pada kajian simulasi, kelima metode regresi logistik terpenalti dievaluasi dengan nilai sensitivitas, spesifisitas, dan FDR. Evaluasi tersebut dilakakukan terhadap nilai ��������� hasil pendugaan. Selanjutnya, metode regresi logistik terpenalti terbaik diterapkan pada data ekspresi gen. data ekspresi gen yang digunakan ada 2, yaitu data ekspresi gen pasien CRC dan HCC.
Pada penerapan menggunakan data riil data dibagi menjadi data latih dan data validasi. Data yang digunakan untuk analisis adalah data latih. Selanjutnya, data validasi digunakan untuk melakukan prediksi. Prediksi dilakukan untuk melihat banyaknya pasien dengan jariangan kanker dan jaringan normal. Hasil prediksi tersebut kemudian dievaluasi dengan nilai sensitivitas, akurasi, dan AUC.
Pada kajian simulasi diterapakan 120 skenario pada metode regresi gulud, LASSO, SCAD, elastic net, dan GELnet. Berdasarkan nilai sensitvitas, spesifisitas, dan FDR, metode LASSO, SCAD, dan elastic net lebih tepat untuk digunakan pada skenario-skenario tersebut. Oleh karena itu, ketiga metode tersebut diterapkan pada data riil. Pada data CRC terdapat 12, 9, dan 98 gen yang terseleksi menggunakan metode LASSO, SCAD, dan elastic net. Sementara itu, berdasarkan hasil prediksi, metode yang paling tepat digunakan untuk memprediksi pada data CRC adalah SCAD. Pada data HCC terdapat 12, 6, dan 116 gen yang terseleksi menggunakan metode LASSO, SCAD, dan elastic net. Sementara itu, berdasarkan hasil prediksi, metode yang paling tepat digunakan untuk memprediksi pada data HCC adalah elastic net.