Partial Least Squares Robust Regression Approach to Handle Outliers in Calibration Data
Pendekatan Kuadrat Terkecil Parsial Kekar untuk Penanganan Pencilan pada Data Kalibrasi
Date
2011Author
Sinaga, Enny Keristiana
Djuraidah, Anik
Wigena, Aji Hamim
Metadata
Show full item recordAbstract
The serious problems in the calibration multivariate estimation are multicollinearity and outliers. Partial Least Squares (PLS) is one of the statistical method used in chemometrics, to handle high or perfect multicollinearity in independent variables. Straightforward Implementation Partial Least Squares (SIMPLS) is the extension of PLS regression proposed by De Jong (1993). The SIMPLS algorithm is based on the empirical cross-variance matrix between the independent variables and the regressors. This method does not resistant toward outlier observations. Robust PLS method is used to handle the multicollinearity and outliers in the data sets. This method can be classified in two groups, there are iteratively reweighting technique and robustication of covariance matrix. Partial Regression-M (PRM) method is one of the robust PLS methods used the idea of iteratively reweighting technique that proposed by Serneels et al. (2005). Robust SIMPLS (RSIMPLS) method is one of the robust PLS methods used the idea of robustication of covariance that proposed by Huber and Branden (2003). A modified RSIMPLS used M estimator with the Huber weight function called RSIMPLS-M was proposed by Ismah (2010). These two methods (RSIMPLS-M and PRM) are applied to Fish data (Naes, 1985) to know their performances. The research results indicated that the values of R2 and RMSEP of RSIMPLS-M are higher than those of PRM method. Whereas based on the confidence interval estimation of the regression coefficients by jackknife method, estimation of PRM is narrower than that RSIMPLS-M method. Therefore RSIMPLS-M method is better than PRM method for prediction, whereas PRM method is better than RSIMPLS-M method for estimation. Pada pendugaan kalibrasi ganda permasalahan serius akan muncul jika diantara peubah bebas (X) saling berkorelasi (multikolinieritas) dan pengamatan yang jauh dari pusat data (pencilan). Ada dua tipe pengamatan pencilan yakni pencilan sisaan dan pengamatan berpengaruh (leverage point). Pencilan sisaan adalah pengamatan pencilan yang mempunyai sisaan baku yang besar, sedangkan pengamatan berpengaruh merupakan pencilan berganda (multivariate outliers) yang terdapat dalam ruang peubah bebas (Liebmann et al. 2009). Sebuah teknik prediktif yang mampu mengatasi masalah multikolinieritas adalah Regresi Kuadrat Terkecil Parsial (Partial Least Squares/PLS). Salah satu algoritma pendugaan PLS adalah Implementasi Langsung Kuadrat Terkecil Parsial (Straightforward Implementation Partial Least Squares/SIMPLS) yang dapat diterapkan dalam mengatasi multikolinieritas, tetapi tidak resisten terhadap pencilan. Pengembangan dari metode PLS dengan menggunakan algoritma SIMPLS sebagai alternatif untuk mengatasi pencilan adalah dengan menggunakan regresi kekar. Secara umum, PLS kekar (PLS Robust) dapat dibagi kedalam dua kelompok yaitu menggunakan teknik memboboti kembali secara iteratif dan penggunaan matriks peragam kekar (Turkmen, 2008). Salah satu metode yang termasuk dalam kelompok pertama adalah Regresi-M Kekar Parsial (Partial Robust M-Regression/PRM) yang diperkenalkan oleh Serneels et al. (2005) dan salah satu metode yang termasuk dalam kelompok kedua adalah RSIMPLS-M (Robust SIMPLS-M) yang diperkenalkan oleh Huber dan Branden (2003). Dalam regresi kekar terdapat beberapa metode pendugaan parameternya, diantaranya adalah penduga-M. Penduga-M merupakan generalisasi dari metode kemungkinan maksimum, yaitu penduga yang meminimumkan fungsi objektif tertentu dalam data. Fungsi pembobot dari penduga-M telah banyak tersedia, diantaranya adalah fungsi pembobot Huber dan fungsi pembobot Fair.