Perbandingan Metode Hot-deck, Regression dan K-Nearest Neighbor Imputation dalam Pendugaan Data Hilang pada Dapodik Tahun 2020
Date
2022Author
Yusuf, Inayatul Izzati Diana
Susetyo, Budi
Rahman, La Ode Abdul
Metadata
Show full item recordAbstract
Data Pokok Pendidikan (Dapodik) adalah sistem pendataan nasional yang memuat data satuan pendidikan. Data hilang pada Dapodik menyebabkan hilangnya informasi penting, sehingga dapat diatasi dengan imputasi. Imputasi merupakan prosedur untuk memprediksi nilai yang hilang dengan metode tertentu. Penelitian ini membandingkan tiga metode imputasi yaitu Hot-deck Imputation, Regression imputation dan K-Nearest Neighbor Imputation (KNNI). Hot-deck imputation adalah metode imputasi menggunakan nilai yang memiliki karakteristik serupa dari observasi lain. Regression imputation adalah metode untuk memprediksi data hilang dengan menggunakan pendekatan regresi. KNNI adalah metode imputasi dengan mengelompokkan data berdasarkan keanggotaan terdekat. Dilakukan simulasi pembangkitan data hilang dengan persentase 2%, 3%, 4% dan 5% lalu dilakukannya imputasi dengan ketiga metode tersebut. Model terbaik ditentukan berdasarkan RMSE dan MAPE terendah. Metode imputasi terbaik berdasarkan nilai RMSE dan MAPE terendah yaitu regression imputation. Data Pokok Pendidikan (Dapodik) is a nationwide data collection system that contains data on education units. Missing value in Dapodik causes the loss of important information. To solve this problem can use imputation. Imputation is a procedure to predict the missing value with a certain method. This study aims to compare three imputation methods which are Hot-deck imputation, Regression Imputation, and K-Nearest Neighbor imputation (KNNI). Hot-deck imputation is an imputation method with values that have similar characteristics. Regression imputation is a method to predict missing values by using the regression approach. KNNI is an imputation method that groups data based on the closest neighbor. Simulation for generating missing value was carried out by dividing the percentage of 2%, 3%, 4%, and 5% then imputed with the three methods. The best model is determined based on the lowest value of RMSE and MAPE. The best imputation method based on the lowest RMSE and MAPE values is a regression imputation