Perbandingan Multivariate Adaptive Regression Spline (Mars) Dan Pohon Klasifikasi C5.0 Pada Data Tidak Seimbang (Studi Kasus: Pekerja Anak Di Jakarta).
View/ Open
Date
2015Author
Adiangga, Dimas
Wijayanto, Hari
Sartono, Bagus
Metadata
Show full item recordAbstract
Pekerja anak merupakan salah satu pelanggaran hak anak karena mendayagunakan anak-anak untuk tujuan ekonomi. Tidak semua anak yang bekerja adalah pekerja anak. Badan Pusat Statistik (BPS) mendefinisikan seorang anak adalah pekerja anak jika memenuhi salah satu kriteria, yaitu anak-anak berumur 5-12 tahun yang bekerja dalam satu minggu terakhir tanpa melihat jam kerja mereka, atau anak-anak berumur 13-14 tahun yang bekerja lebih dari 15 jam dalam satu minggu terakhir, atau anak-anak yang bekerja umur 15-17 tahun yang bekerja lebih dari 40 jam dalam satu minggu terakhir. Metode klasifikasi digunakan untuk mengetahui faktor-faktor yang berpengaruh terhadap pekerja anak karena peubah respon dalam penelitian ini terdiri dari dua kelas yaitu pekerja anak dan bukan pekerja anak. Metode klasifikasi yang digunakan adalah Mutivariate Adaptive Regression Spline (MARS) dan Pohon Klasifikasi C5.0. MARS merupakan metode regresi non parametrik yang menggabungkan fungsi basis spline dengan algoritma pemilahan rekursif yang bersifat adaptif terhadap data sehingga menghasilkan model dengan tingkat keakuratan tinggi. C5.0 merupakan metode analisis yang mentransformasi data ke dalam bentuk pohon yang mudah dalam interpretasi dengan tingkat keakuratan yang tinggi. Jumlah pekerja anak diketahui jauh lebih rendah daripada jumlah anak pada suatu wilayah. Ketimpangan proporsi pada kelas peubah respon disebut dengan data tidak seimbang (imbalanced data). Klasifikasi rentan terhadap data yang tidak seimbang karena menghasilkan model dengan akurasi yang rendah pada kelas minoritas. Beberapa metode untuk menangani data yang tidak seimbang yaitu Syntethic Minority Oversampling Technique (SMOTE) dan Cost Sensitive Learning (CSL). SMOTE menyeimbangkan kedua kelas pada peubah respon dengan membuat data sintetis untuk kelas minoritas, sementara CSL memberikan pembobotan pada saat pembangunan model berdasarkan kesalahan klasifikasi. Penelitian ini bertujuan untuk mencari model klasifikasi terbaik antara metode MARS dan C5.0 setelah penanganan data tidak seimbang dengan SMOTE dan CSL serta mengidentifikasi faktor-faktor yang berpengaruh terhadap pekerja anak di Propinsi DKI Jakarta. Data yang digunakan adalah Survey Sosial Ekonomi Nasional (Susenas) Propinsi DKI Jakarta pada tahun 2013. Model terbaik berdasarkan nilai luas di bawah Kurva ROC (AUC) tertinggi adalah MARS dengan SMOTE. Beberapa faktor yang berpengaruh terhadap pekerja anak antara lain Partisipasi Sekolah Anak (X1), Tinggal dengan Orang Tua Kandung (X3), Umur Kepala Rumah Tangga (KRT) (X4), Pendidikan KRT (X7), Pengeluaran per Kapita (X12), dan Jumlah Anggota Rumah Tangga (X10). ,