A Simulation Study of Model Averaging in High Dimensional Data with Various Correlation Structures Using Ridge Regression Methods.
View/ Open
Date
2018Author
Salaki, Deiby Tineke
Kurnia, Anang
Gusnanto, Arief
Mangku, I Wayan
Sartono, Bagus
Metadata
Show full item recordAbstract
Perkembangan yang pesat dalam teknologi komputasi dan internet, sangat
memungkinkan upaya pengumpulan dan penyimpanan data berukuran
besar (big data). Data berdimensi tinggi merupakan salah satu bentuk
data besar yang dicirikan oleh banyaknya peubah bebas yang jauh melebihi
amatan. Data seperti ini umumnya muncul ketika objek pengamatan merupakan
kejadian langka atau memerlukan biaya besar. Beberapa contoh di
antaranya adalah data ekspresi gen dan data spektroskopi.
Pada data seperti ini, masalah kekolinearan ganda antar kovariatnya
tidak bisa dihindari. Hasil dugaannya memiliki ragam yang cenderung
besar jika metode estimasi kuadrat terkecil digunakan. Akibatnya, hasil
pendugaan cenderung tidak stabil dan model prediksi yang diperoleh tidak
akurat.
Metode regresi berkendala penalized regression dan model averaging (MA)
merupakan pendekatan alternatif bagi metode seleksi model untuk pemodelan
data berdimensi tinggi. Metode seleksi model, akan memilih satu dari
sekumpulan kandidat model yang terbentuk berdasarkan kriteria tertentu
seperti Akaike Information Criteria (AIC) dan Cp Mallows. Sebaliknya, MA
memanfatkan semua kandidat model dengan merata-ratakan hasil dugaannya
secara terboboti.
Terdapat tiga tahapan utama yang menentukan kinerja prediksi MA,
yaitu cara pembentukan kandidat model dan metode pendugaan kandidat
model serta standar penentuan bobot. Tujuan utama dari penelitian ini
adalah untuk mengungkap bagaimana kinerja prediksi yang dihasilkanMA
berdasarkan variasi tiga tahapan tersebut jika diterapkan pada data berdimensi
tinggi dengan tiga jenis struktur korelasi yaitu rendah, tinggi atau
berkorelasi secara blok dan tiga jenis ragam dari unsur galat yaitu 0.1, 0.3
dan 0.5.
Dalam kaitan dengan data berdimensi besar, pembentukan kandidat
model dalam penelitian ini dilakukan berdasarkan dua cara pengelompokan
peubah bebas, yaitu berdasarkan korelasi marginal antara peubah
bebas dengan respon yang selanjutnya dinamakan marginal correlation MA
(MCMA) dan pengelompokkan secara acak, yang disebut random partition
MA (RPMA).
Kandidat model tersebut, diduga dengan dua metode yaitu kuadrat
terkecil dan regresi gulud. Penggunaan regresi gulud dimaksudkan untuk
mengungkap sejauh mana perannya dalam mengatasi kekolinearan ganda
yang cenderung muncul pada data berdimensi tinggi. Pengaruh penggunaan
standar pembobotan terhadap kinerja MA juga diungkap dengan
ii
menerapkan tiga standar yaitu AIC, Cp Mallows dan validasi silang.
Hasil simulasi menunjukkan bahwa kinerja MCMA relatif lebih baik
dari regresi berkendala pada data berkorelasi tinggi. Sebaliknya, RPMA
dapat menjadi alternative bagi regresi berkendala, apapun struktur korelasi
datanya. RPMA bahkan menghasilkan kinerja yang lebih baik dari regresi
berkendala. Hal ini secara konsisten terjadi pada konstruksi FRMA yang
melampaui FMMA.
Hasil aplikasi pada sejumlah data spektroskopi menunjukkan bahwa
penggunaan MA dengan berdasarkan regresi gulud menghasilkan model
prediksi yang lebih baik dari MA dengan metode kuadrat terkecil bahkan
lebih baik dari pada kinerja LASSO dan SCAD.
Secara umum, hasil penelitian ini merekomendasikan penggunaan analisis
model averaging sebagai metode alternatif dalam memodelkan data
berdimensi tinggi dengan sembarang struktur korelasi dan ragam galatnya.
Namun, untuk menghasilkan model prediksi dengan kinerja yang
optimal, konstruksi kandidat model dilakukan dengan pengelompokkan
kovariat secara acak dan pendugaan parameternya menggunakan regresi
gulud dengan jumlah kovariat dalam satu kandidat model sebanyak 10%
dari jumlah kovariat model penuh. Selain itu, standar bobot Mallows lebih
disarankan dibandingankan dengan AIC dan Jackknife.