Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/95347
Title: A Simulation Study of Model Averaging in High Dimensional Data with Various Correlation Structures Using Ridge Regression Methods.
Other Titles: Kajian Simulasi untuk Model Averaging Pada Data Berdimensi Tinggi dengan Berbagai Struktur Korelasi Menggunakan Metode Regresi Gulud.
Authors: Kurnia, Anang
Gusnanto, Arief
Mangku, I Wayan
Sartono, Bagus
Salaki, Deiby Tineke
Keywords: Bogor Agricultural University (IPB)
Issue Date: 2018
Publisher: IPB (Bogor Agricultural University)
Abstract: Perkembangan yang pesat dalam teknologi komputasi dan internet, sangat memungkinkan upaya pengumpulan dan penyimpanan data berukuran besar (big data). Data berdimensi tinggi merupakan salah satu bentuk data besar yang dicirikan oleh banyaknya peubah bebas yang jauh melebihi amatan. Data seperti ini umumnya muncul ketika objek pengamatan merupakan kejadian langka atau memerlukan biaya besar. Beberapa contoh di antaranya adalah data ekspresi gen dan data spektroskopi. Pada data seperti ini, masalah kekolinearan ganda antar kovariatnya tidak bisa dihindari. Hasil dugaannya memiliki ragam yang cenderung besar jika metode estimasi kuadrat terkecil digunakan. Akibatnya, hasil pendugaan cenderung tidak stabil dan model prediksi yang diperoleh tidak akurat. Metode regresi berkendala penalized regression dan model averaging (MA) merupakan pendekatan alternatif bagi metode seleksi model untuk pemodelan data berdimensi tinggi. Metode seleksi model, akan memilih satu dari sekumpulan kandidat model yang terbentuk berdasarkan kriteria tertentu seperti Akaike Information Criteria (AIC) dan Cp Mallows. Sebaliknya, MA memanfatkan semua kandidat model dengan merata-ratakan hasil dugaannya secara terboboti. Terdapat tiga tahapan utama yang menentukan kinerja prediksi MA, yaitu cara pembentukan kandidat model dan metode pendugaan kandidat model serta standar penentuan bobot. Tujuan utama dari penelitian ini adalah untuk mengungkap bagaimana kinerja prediksi yang dihasilkanMA berdasarkan variasi tiga tahapan tersebut jika diterapkan pada data berdimensi tinggi dengan tiga jenis struktur korelasi yaitu rendah, tinggi atau berkorelasi secara blok dan tiga jenis ragam dari unsur galat yaitu 0.1, 0.3 dan 0.5. Dalam kaitan dengan data berdimensi besar, pembentukan kandidat model dalam penelitian ini dilakukan berdasarkan dua cara pengelompokan peubah bebas, yaitu berdasarkan korelasi marginal antara peubah bebas dengan respon yang selanjutnya dinamakan marginal correlation MA (MCMA) dan pengelompokkan secara acak, yang disebut random partition MA (RPMA). Kandidat model tersebut, diduga dengan dua metode yaitu kuadrat terkecil dan regresi gulud. Penggunaan regresi gulud dimaksudkan untuk mengungkap sejauh mana perannya dalam mengatasi kekolinearan ganda yang cenderung muncul pada data berdimensi tinggi. Pengaruh penggunaan standar pembobotan terhadap kinerja MA juga diungkap dengan ii menerapkan tiga standar yaitu AIC, Cp Mallows dan validasi silang. Hasil simulasi menunjukkan bahwa kinerja MCMA relatif lebih baik dari regresi berkendala pada data berkorelasi tinggi. Sebaliknya, RPMA dapat menjadi alternative bagi regresi berkendala, apapun struktur korelasi datanya. RPMA bahkan menghasilkan kinerja yang lebih baik dari regresi berkendala. Hal ini secara konsisten terjadi pada konstruksi FRMA yang melampaui FMMA. Hasil aplikasi pada sejumlah data spektroskopi menunjukkan bahwa penggunaan MA dengan berdasarkan regresi gulud menghasilkan model prediksi yang lebih baik dari MA dengan metode kuadrat terkecil bahkan lebih baik dari pada kinerja LASSO dan SCAD. Secara umum, hasil penelitian ini merekomendasikan penggunaan analisis model averaging sebagai metode alternatif dalam memodelkan data berdimensi tinggi dengan sembarang struktur korelasi dan ragam galatnya. Namun, untuk menghasilkan model prediksi dengan kinerja yang optimal, konstruksi kandidat model dilakukan dengan pengelompokkan kovariat secara acak dan pendugaan parameternya menggunakan regresi gulud dengan jumlah kovariat dalam satu kandidat model sebanyak 10% dari jumlah kovariat model penuh. Selain itu, standar bobot Mallows lebih disarankan dibandingankan dengan AIC dan Jackknife.
URI: http://repository.ipb.ac.id/handle/123456789/95347
Appears in Collections:DT - Mathematics and Natural Science

Files in This Item:
File SizeFormat 
2018dts.pdf
  Restricted Access
46.15 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.