| dc.description.abstract | Analisis regresi merupakan metode statistika dasar untuk memodelkan
hubungan antara peubah respon dan peubah penjelas. Ada tiga pendekatan utama
pada regresi yaitu parametrik, nonparametrik, dan semiparametrik. Regresi
semiparametrik menggabungkan komponen parametrik tetap dan teknik
penghalusan yang fleksibel. B-Spline dipilih sebagai metode semiparametrik,
karena memiliki keunggulan dapat mengatasi orde spline yang tinggi dan
penempatan simpul yang padat.
Dalam konteks data hierarki (multilevel) seperti data antarwilayah, model
campuran (mixed models) digunakan untuk mengakomodasi keragaman
antarkelompok. Pemodelan data cacah menggunakan regresi Poisson sering tidak
memadai, karena adanya overdispersi (ragam lebih besar dari yang diasumsikan
oleh model) dan banyaknya nilai nol (zero-inflation). Jika overdispersi dan nol
berlebih tidak dimodelkan dengan tepat, dapat menghasilkan galat baku yang terlalu
kecil daripada seharusnya (underestimate). Hal ini akan menghasilkan uji
signifikansi peubah penjelas yang cenderung menolak hipotesis nol.
Penelitian ini bertujuan untuk mengevaluasi kinerja model multilevel
parametrik dan semiparametrik dengan berbagai kondisi overdispersi dan nol
berlebih melalui kajian simulasi. Kemudian menerapkan model multilevel
parametrik dan semiparametrik dengan kondisi overdispersi dan nol berlebih pada
data putus sekolah dan menentukan faktor-faktor yang berpengaruh terhadap angka
putus sekolah SMA di Indonesia.
Data penelitian yang digunakan terdiri atas data simulasi dan data empiris.
Data disimulasikan dengan kombinasi dua jenis sebaran (ZIGP dan ZINB), tiga
tingkat overdispersi (1; 5; 10), dan tiga proporsi nol (0,2; 0,5; 0,8). Kombinasi
skenario data simulasi berjumlah 2 × 3 × 3 = 18, dengan ulangan 100 kali. Kajian
simulasi dilakukan untuk mengevaluasi kinerja enam model, yaitu tiga parametrik
(ZIPMM, ZIGPMM, ZINBMM) dan tiga semiparametrik (SZIPMM, SZIGPMM,
SZINBMM). Evaluasi model berdasarkan rata-rata Akaike Information Criterion
(AIC), ketepatan pendugaan parameter, dan sebaran galat baku penduga parameter.
Kajian empiris diterapkan pada data putus sekolah SMA di Indonesia tahun 2022.
Data empiris dibagi menjadi data latih (90%) dan data uji (10%). Pemodelan
dilakukan menggunakan enam model yaitu tiga parametrik dan tiga
semiparametrik, dengan ulangan 100 kali. Evaluasi model berdasarkan rata-rata
AIC dan rata-rata Root Mean Square Error (RMSE).
Hasil kajian simulasi menunjukkan bahwa tingkat overdispersi dan proporsi
nol berlebih memengaruhi performa model. Semakin tinggi overdispersi maka rata
rata AIC semakin kecil. Begitu juga dengan tinggi proporsi nol, semakin tinggi
proporsi nol maka rata-rata AIC juga semakin kecil. Ini artinya semakin tinggi
overdispersi dan proporsi nol, maka model semakin baik. Model semiparametrik
juga menghasilkan AIC yang lebih kecil dibandingkan dengan model parametrik,
artinya penambahan spline (efek nonlinear) dapat meningkatkan kemampuan
model. Berdasarkan perbandingan model terbaik, SZINBMM dan SZIGPMM merupakan model yang kompetitif karena secara keseluruhan menghasilkan rata
rata AIC terendah.
Hasil kajian empiris menunjukkan bahwa SZIGPMM merupakan model yang
paling tepat untuk memodelkan tingkat putus sekolah. Hal ini dibuktikan dengan
nilai AIC terendah (18.969,62) dan kurva spline yang stabil (simpul = 2, orde = 3,
dan GCV = 9,4107). Peubah yang signifikan dalam memengaruhi putus sekolah
meliputi status sekolah (negeri/swasta) (??1), rasio siswa per guru (??2), jarak rumah
ke sekolah (??3), pendidikan ayah kurang dari SMA (??5), dan kondisi ayah tidak
bekerja (??6). Menariknya, kepemilikan Kartu Indonesia Pintar (KIP) (??4) dan
jumlah saudara kandung lebih dari tiga (??7), tidak berpengaruh signifikan terhadap
tingkat putus sekolah. Kesimpulannya model multilevel semiparametrik berbasis
spline efektif untuk menangani data cacah kompleks yang mengandung
overdispersi, nol berlebih, dan efek nonlinear. | |