MF - School of Data Science, Mathematic and Informatics

MF - School of Data Science, Mathematic and Informatics http://repository.ipb.ac.id/handle/123456789/160870 School of Data Science, Mathematic and Informatics 2026-07-21T20:15:38Z EVALUASI DAN PENGEMBANGAN MODEL SKOR KEPATUHAN CUKAI PENGUSAHA MINUMAN BERALKOHOL DENGAN STRATEGI ENCODING INOVATIF http://repository.ipb.ac.id/handle/123456789/175251 EVALUASI DAN PENGEMBANGAN MODEL SKOR KEPATUHAN CUKAI PENGUSAHA MINUMAN BERALKOHOL DENGAN STRATEGI ENCODING INOVATIF Riansyah, Boy Direktorat Jenderal Bea dan Cukai (DJBC) saat ini menggunakan model skor kepatuhan sebagai dasar penentuan prioritas dan strategi pengawasan terhadap pengusaha minuman beralkohol. Model tersebut disusun dalam bentuk scorecard manual menggunakan 91 peubah prediktor kategorik dengan struktur kategori dan pembobotan yang ditetapkan melalui pendekatan normatif dan justifikasi ahli. Pendekatan ini belum mempertimbangkan hubungan statistik empiris antara karakteristik pengusaha dan kejadian pelanggaran sehingga diperlukan evaluasi dan pengembangan model yang lebih berbasis data. Berdasarkan latar belakang tersebut, tujuan penelitian ini adalah (1) mengevaluasi kinerja model skor kepatuhan yang saat ini digunakan oleh DJBC; (2) mengembangkan model skor kepatuhan baru dengan membandingkan kinerja algoritma pemodelan regresi logistik dengan encoding Weight of Evidence (WoE), Ordered Target (OT) dan algoritma CatBoost; serta (3) mengidentifikasi peubah prediktor yang memiliki tingkat kepentingan paling tinggi berdasarkan model terbaik dari hasil pengembangan model. Model skor kepatuhan yang digunakan oleh DJBC saat ini terdiri atas 309 level kategori yang berasal dari 91 peubah prediktor. Distribusi pengusaha pada setiap level kategori tidak merata sehingga masih terdapat level kategori yang hanya berisikan kurang dari 5% pengusaha minuman beralkohol di Indonesia (sparse categories). Kondisi tersebut berpotensi mempengaruhi kestabilan proses encoding dan kinerja model prediktif yang dihasilkan. Berdasarkan kondisi tersebut, penelitian ini menerapkan proses restrukturisasi level kategori melalui penggabungan beberapa level kategori dengan frekuensi yang rendah untuk memperoleh representasi kategori yang lebih stabil. Hasil restrukturisasi level kategori ini berhasil menurunkan jumlah level kategori menjadi 242 buah. Proses evaluasi terhadap model skor kepatuhan yang saat ini digunakan oleh DJBC menunjukkan bahwa model memiliki kemampuan diskriminasi yang terbatas dengan nilai statistik Kolmogorov-Smirnov (KS) sebesar 0,27. Pola distribusi skor kepatuhan yang dihasilkan juga belum mencerminkan tingkat risiko secara memadai karena kelompok dengan skor kepatuhan tinggi didominasi oleh pengusaha yang melakukan pelanggaran. Pengembangan model skor kepatuhan menggunakan regresi logistik dan CatBoost berhasil meningkatkan kinerja klasifikasi dibandingkan model skor kepatuhan yang digunakan saat ini. Penerapan encoding OT pada model regresi logistik secara konsisten menghasilkan kinerja yang lebih baik dibandingkan encoding WoE pada seluruh skenario pemodelan. Model regresi logistik terbaik menghasilkan nilai KS sebesar 0,42 dan AUC sebesar 0,68. Adapun kinerja terbaik dari seluruh skenario pemodelan dihasilkan dari model CatBoost dengan nilai KS sebesar 0,47 dan AUC sebesar 0,72. Penelitian ini juga menggunakan skema repeated cross validation (5 fold dan 20 pengulangan) untuk memvalidasi kinerja model sehingga menghasilkan pengukuran kinerja yang lebih andal. Analisis tingkat kepentingan peubah prediktor menunjukkan bahwa X21 merupakan peubah prediktor yang memiliki tingkat kepentingan tertinggi dari model CatBoost terbaik. Sebagian besar peubah prediktor dengan tingkat kepentingan tertinggi berasal dari dimensi risiko inheren dan operasional sedangkan kontribusi peubah dari dimensi risiko rekam jejak relatif lebih rendah. Hasil penelitian secara keseluruhan menunjukkan bahwa pendekatan berbasis machine learning dan strategi encoding yang tepat mampu meningkatkan kemampuan diskriminasi model dibandingkan scorecard manual yang saat ini digunakan oleh DJBC. Temuan ini dapat menjadi dasar empiris bagi pengembangan sistem skor kepatuhan yang lebih akurat, objektif dan berbasis data dalam mendukung pengawasan pengusaha minuman beralkohol di Indonesia. 2026-01-01T00:00:00Z Analisis Risiko Usahatani Bawang Merah Menggunakan Simulasi Monte Carlo Berbasis D-vine Copula http://repository.ipb.ac.id/handle/123456789/175219 Analisis Risiko Usahatani Bawang Merah Menggunakan Simulasi Monte Carlo Berbasis D-vine Copula Fuzzaroh, Fatimah Bawang merah merupakan salah satu komoditas hortikultura yang banyak dibutuhkan untuk konsumsi rumah tangga maupun industri makanan, sehingga menjadikannya sebagai komoditas strategis dalam kegiatan usahatani. Meskipun demikian, usahatani bawang merah tidak terlepas dari berbagai risiko pertanian, Risiko tersebut dapat berasal dari berbagai aspek, fluktuasi harga, pergeseran musim tanam yang berhubungan dengan ketersediaan produksi, kenaikan biaya produksi, dan serangan hama. Kombinasi ketidakpastian tersebut menyebabkan keuntungan petani bawang merah menjadi cukup berisiko. Dalam praktiknya, keuntungan petani dihitung sebagai Y= (hasil panen × harga jual) - (biaya produksi). Karena keuntungan tersusun dari berbagai komponen variabel acak yang berfluktuasi, maka analisis risiko penting dilakukan untuk memahami besarnya potensi kerugian yang mungkin dialami oleh petani. Setiap komponen dari variabel acak memiliki karakteristik statistik dan distribusi peluang yang berbeda serta saling bergantung atau tidak bersifat bebas. Ketergantungan ini sering diabaikan dan berpotensi menyebabkan estimasi risiko menjadi tidak akurat dari kondisi sebenarnya. Oleh karena itu, diperlukan pendekatan analisis yang mampu mempertahankan struktur ketergantungan antarvariabel acak dalam perhitungan risiko. Dalam penelitian ini, estimasi risiko dilakukan melalui simulasi Monte Carlo dengan pendekatan D-vine copula untuk merepresentasikan ketergantungan antarvariabel acak secara lebih akurat. Penelitian ini menggunakan data keuntungan usahatani bawang merah yang tersusun atas beberapa komponen variabel acak, yaitu hasil panen, harga jual, biaya produksi yang terdiri dari biaya bibit, biaya tenaga kerja, dan biaya lainnya. Setiap variabel acak dimodelkan berdasarkan distribusi peluang yang sesuai dengan karakteristik datanya, kemudian struktur ketergantungan antarvariabel dibentuk menggunakan pendekatan D-vine copula. Selanjutnya, simulasi Monte Carlo dilakukan untuk menghasilkan distribusi keuntungan. Estimasi risiko diukur menggunakan Value at Risk (VaR) dan Expected Shortfall (ES) pada tingkat kepercayaan 90%, 95%, dan 99% dengan beberapa pendekatan yaitu, pendekatan univariat di mana keuntungan ditetapkan sebagai variabel tunggal dengan distribusi normal tanpa melihat komponen penyusunnya, pendekatan multivariat menggunakan D-vine copula untuk mempertahankan ketergantungan antarkomponen, dan pendekatan empiris dari data historis. Hasil penelitian menunjukkan keuntungan usahatani bawang merah di Desa Babakan dan Pabedilan, Kabupaten Cirebon, menunjukkan keragaman selama periode pengamatan 2014-2024, dengan rata-rata sebesar Rp4.237.254/ha. Sebanyak 59,375% data menunjukkan keuntungan, sedangkan 40,625% menunjukkan kerugian, yang mengindikasi bahwa risiko usahatani bawang merah relatif tinggi. Ketergantungan antarvariabel pembentuk keuntungan dimodelkan menggunakan D-vine copula, dengan susunan Clayton copula pada pasangan hasil panen dan biaya tenaga kerja, Student-t pada biaya tenaga kerja dan bibit, dan Joe pada biaya bibit dan harga jual. Simulasi Monte Carlo menggunakan D-vine copula menghasilkan rata-rata dan simpangan baku yang sebanding dengan data empiris dan menghasilkan data yang stabil. Pengukuran estimasi risiko menggunakan VaR dan ES. Pendekatan empiris menghasilkan nilai risiko relatif kasar yang menunjukkan sensitivitas terbatas dalam kejadian ekstrem dan ketidakmampuan dalam menangkap perilaku ekor akibat keterbatasan data. Pendekatan empiris sesuai untuk analisis awal atau pengambil keputusan dengan kecenderungan menghindari risiko (risk-averse). Pendekatan univariat dengan distribusi normal menghasilkan estimasi risiko tertinggi dari ketiga pendekatan pada seluruh tingkat kepercayaan. Hal ini mencerminkan hasil risiko ekstrem yang lebih konservatif dan ekor distribusi yang lebih halus, sehingga memberikan estimasi risiko yang lebih stabil. Namun, pendekatan univariat didorong dari asumsi distribusi, bukan dari struktur data karena model tidak mempertimbangkan ketergantungan antarkomponen penyusun keuntungan. Akibatnya, estimasi risiko ekor berpotensi berlebihan dan tidak sepenuhnya mencerminkan perilaku gabungan variabel secara aktual. Oleh karena itu, pendekatan ini cocok digunakan untuk tolok ukur konservatif atau kecenderungan risiko tinggi (risk-seeking). Pendekatan multivariat dengan simulasi Monte Carlo dan D-vine copula memberikan estimasi nilai risiko yang berada di antara pendekatan empiris dan univariat. Pendekatan ini mampu menangkap dinamika bersama dan ketergantungan pada ekor melalui simulasi, sehingga menghasilkan representasi perilaku ekor yang lebih halus dan relevan bagi komponen penyusun keuntungan yang saling berhubungan. Hal ini penting dalam konteks komponen keuntungan, di mana biaya produksi yang tinggi dapat terjadi secara bersamaan sehingga meningkatkan total biaya produksi jika dikombinasikan dengan hasil panen atau harga jual yang rendah. Interaksi ini dapat menghasilkan skenario kerugian yang ekstrem. Meskipun demikian, estimasi risiko yang dihasilkan tetap bergantung pada struktur copula dan desain simulasi yang digunakan. Dengan demikian, pendekatan ini memberikan representasi risiko yang lebih seimbang dan sesuai bagi pengambil keputusan dengan kecenderungan netral terhadap risiko (risk-neutral). 2026-01-01T00:00:00Z Model Risiko Kesehatan dari PM2.5 Berbasis Aerosol Optical Depth dengan Menggunakan Pendekatan Deep Learning http://repository.ipb.ac.id/handle/123456789/175200 Model Risiko Kesehatan dari PM2.5 Berbasis Aerosol Optical Depth dengan Menggunakan Pendekatan Deep Learning Hidayat, Ilham Rizki Paparan Particulate Matter 2.5 (PM2.5) di wilayah metropolitan seperti Provinsi DKI Jakarta memicu lonjakan kasus Infeksi Saluran Pernapasan Akut (ISPA), namun upaya mitigasi seringkali terkendala oleh terbatasnya jangkauan spasial stasiun pemantau kualitas udara darat. Penelitian ini bertujuan untuk mengembangkan model prediksi PM2.5 spasial berbasis penginderaan jauh, memetakan Indeks Risiko Paparan Relatif (RER), dan memvalidasi keandalan model risiko tersebut menggunakan rekam medis pasien di dunia nyata. Pemodelan komputasi dieksekusi dengan membandingkan performa algoritma Extreme Gradient Boosting (XGBoost) dan Bidirectional Long ShortTerm Memory (Bi-LSTM). Model dilatih menggunakan variabel prediktor berupa Aerosol Optical Depth dari satelit MODIS serta parameter meteorologi dari dataset ERA5, dengan variabel target yang difilter ketat dari tiga stasiun pemantau dengan integritas data tertinggi selama periode tahun 2024. Prediksi PM2.5 spasial dari model terbaik kemudian diintegrasikan dengan data kepadatan penduduk beresolusi tinggi untuk mengalkulasi indeks kerentanan wilayah tingkat kecamatan, yang selanjutnya diuji korelasinya terhadap data insiden ISPA menggunakan metode korelasi Pearson. Hasil evaluasi komputasi membuktikan bahwa arsitektur Bi-LSTM secara signifikan mengungguli XGBoost dalam memprediksi konsentrasi polutan, dengan pencapaian tingkat Mean Absolute Percentage Error (MAPE) terbaik sebesar 12,94% di wilayah Kebon Jeruk. Kemampuan Bi-LSTM dalam memproses memori sekuensial dua arah terbukti sangat efektif untuk menangkap dinamika cuaca historis. Transformasi peta hasil prediksi menjadi Indeks RER berhasil mengidentifikasi zona merah kerentanan spasial (nilai RER > 1) yang secara signifikan terpusat di kawasan padat penduduk seperti Kecamatan Cakung, Kalideres, dan Cengkareng. Sebagai kebaruan utama penelitian, validasi epidemiologi secara empiris mengonfirmasi adanya korelasi positif yang signifikan antara nilai RER komputasi dengan jumlah pasien ISPA aktual di lapangan, di mana kekuatan korelasi tertinggi tercatat memuncak pada fase transisi musim Pancaroba, yaitu Periode SON (r = +0,483) dan MAM (r = +0,479). Hasil penelitian ini menegaskan bahwa sistem tata ruang komputasi yang dikembangkan menunjukkan tingkat validitas yang memadai, sehingga berpotensi untuk dijadikan landasan bagi pemerintah daerah sebagai purwarupa sistem peringatan dini untuk memprioritaskan alokasi sumber daya medis secara presisi pada wilayah dengan beban polusi tertinggi.; Exposure to Particulate Matter 2.5 (PM2.5) in metropolitan areas such as the Special Capital Region of Jakarta triggers a surge in cases of Acute Respiratory Infections (ARI), yet mitigation efforts are often hampered by the limited spatial coverage of ground-based air quality monitoring stations. This study aims to develop a spatial PM2.5 prediction model based on remote sensing, map the Relative Exposure Risk Index (RER), and validate the reliability of this risk model using real-world patient medical records. Computational modelling was carried out by comparing the performance of the Extreme Gradient Boosting (XGBoost) and Bidirectional Long Short-Term Memory (Bi-LSTM) algorithms. The model was trained using predictor variables comprising Aerosol Optical Depth from the MODIS satellite and meteorological parameters from the ERA5 dataset, with target variables rigorously filtered from three monitoring stations with the highest data integrity during the 2024 period. Spatial PM2.5 predictions from the best model were then integrated with high-resolution population density data to calculate sub-district-level vulnerability indices, which were subsequently tested for correlation with ARI incidence data using the Pearson correlation method. The results of the computational evaluation demonstrate that the Bi-LSTM architecture significantly outperforms XGBoost in predicting pollutant concentrations, achieving the best Mean Absolute Percentage Error (MAPE) of 12.94% in the Kebon Jeruk area. The Bi-LSTM’s ability to process bidirectional sequential memory proved highly effective in capturing historical weather dynamics. The transformation of the prediction map into a RER Index successfully identified red zones of spatial vulnerability (RER values > 1), which were extremely concentrated in densely populated areas such as the sub-districts of Cakung, Kalideres, and Cengkareng. As the primary innovation of this research, empirical epidemiological validation confirmed a significant positive correlation between computed RER values and the actual number of ARI patients in the field, with the strongest correlation recorded during the transitional phase of the changing seasons, namely the SON period (r = +0,483) and the MAM period (r = +0,479). These findings confirm that the computational spatial system developed has been proven to be factually valid, and is therefore ready for implementation by local governments as a prototype early warning system to prioritise the precise allocation of medical resources in areas with the highest pollution burden. 2026-01-01T00:00:00Z Kinerja Model Random Forest dengan dan tanpa Lagged Response pada Data Longitudinal untuk Prediksi Kemampuan Numerasi Siswa SMA http://repository.ipb.ac.id/handle/123456789/175085 Kinerja Model Random Forest dengan dan tanpa Lagged Response pada Data Longitudinal untuk Prediksi Kemampuan Numerasi Siswa SMA Azizah, Siti Nur Data longitudinal memiliki karakteristik berupa heterogenitas antarunit dan ketergantungan temporal antarpengukuran, sehingga memerlukan metode yang mampu mengakomodasi kedua aspek tersebut secara simultan. Linear Mixed Model (LMM) merupakan salah satu pendekatan yang banyak digunakan karena mampu memodelkan variasi antarunit melalui efek acak. Namun, pendekatan ini tetap berada dalam kerangka parametrik sehingga kurang fleksibel dalam menangkap hubungan nonlinier dan interaksi kompleks antar peubah. Mixed Effects Random Forest (MERF) dikembangkan dengan menggabungkan fleksibilitas Random Forest dalam memodelkan hubungan nonlinier dan struktur efek acak pada data hierarki. MERF pada awalnya dikembangkan untuk data berklaster dan belum secara eksplisit memodelkan korelasi antarpengukuran berulang. Selanjutnya dikembangkan Stochastic MERF (sMERF) yang mengintegrasikan proses stokastik untuk mengakomodasi korelasi antarwaktu pada data longitudinal. Selain struktur korelasi antarwaktu melalui proses stokastik, keterkaitan temporal antarpengukuran juga dapat direpresentasikan melalui lagged response. Lagged response merupakan nilai peubah respons pada waktu sebelumnya yang digunakan sebagai prediktor untuk merepresentasikan informasi historis. Kajian yang mengevaluasi dan membandingkan kinerja LMM, MERF, dan sMERF dengan mempertimbangkan penggunaan lagged response masih relatif terbatas. Penelitian ini bertujuan untuk mengevaluasi performa prediksi LMM, MERF, dan sMERF dengan dan tanpa lagged response pada data longitudinal melalui studi simulasi dan studi empiris dan mengidentifikasi peubah kontekstual sekolah yang berperan penting dalam memprediksi capaian numerasi siswa SMA. Studi simulasi dilakukan menggunakan 80 skenario yang dibentuk melalui kombinasi tingkat ketergantungan waktu, heterogenitas individu, galat, dan proses stokastik. Setiap skenario direplikasi sebanyak 100 kali sehingga menghasilkan 8000 dataset simulasi. Evaluasi model dilakukan menggunakan Root Mean Square Error (RMSE) dan koefisien determinasi (??2). Pada studi empiris, model diterapkan pada data numerasi siswa SMA di Provinsi Jawa Barat. Numerasi dipilih karena merupakan salah satu indikator penting dalam evaluasi mutu pendidikan dan masih menunjukkan capaian yang relatif rendah baik pada tingkat nasional maupun internasional. Kinerja model pada data empiris dievaluasi menggunakan RMSE, Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE), dan ??2. Hasil studi simulasi menunjukkan bahwa penggunaan lagged response secara konsisten meningkatkan performa prediksi pada seluruh metode dan kondisi yang dievaluasi. Pada hampir seluruh skenario simulasi, model dengan lagged response menghasilkan RMSE yang lebih rendah dan ??2 yang lebih tinggi dibandingkan dengan model tanpa lagged response. Temuan ini didukung oleh analisis ragam dan bootstrap comparison sampling yang menunjukkan bahwa model dengan lagged response secara signifikan memberikan performa prediksi yang lebih baik dibandingkan dengan model tanpa lagged response. Hasil tersebut mengindikasikan bahwa informasi historis merupakan komponen penting dalam memprediksi respons longitudinal karena mampu menangkap ketergantungan temporal antarpengukuran. Di antara metode yang dibandingkan, MERF dengan lagged response menunjukkan performa paling baik pada sebagian besar skenario simulasi, ditunjukkan oleh frekuensi keunggulan tertinggi dan rataan peringkat terbaik. Sementara itu, keunggulan sMERF tidak muncul secara universal pada seluruh kondisi simulasi. Perbaikan performa sMERF mulai terlihat pada kondisi dengan ketergantungan temporal dan sinyal stokastik yang lebih kuat, namun belum mampu mengungguli MERF secara konsisten. Hasil ini menunjukkan bahwa peningkatan kompleksitas model melalui penambahan proses stokastik tidak selalu menghasilkan peningkatan akurasi prediksi, melainkan bergantung pada karakteristik data yang dianalisis. Pada studi empiris, model berbasis machine learning secara umum menghasilkan performa prediksi yang lebih baik dibandingkan dengan LMM, baik pada kondisi dengan maupun tanpa lagged response. Penambahan lagged response juga meningkatkan akurasi prediksi pada seluruh metode yang dievaluasi. MERF dengan lagged response menghasilkan performa terbaik dengan nilai MAPE sebesar 5,11% dan ??2 sebesar 75,86%. Meskipun demikian, hasil bootstrap menunjukkan bahwa rentang performa MERF dan sMERF cenderung berhimpit, yang mengindikasikan bahwa kedua metode memberikan tingkat akurasi yang relatif serupa. Konsistensi hasil antara studi simulasi dan studi empiris memperkuat temuan bahwa pemanfaatan informasi historis memberikan kontribusi yang lebih besar terhadap peningkatan akurasi prediksi. Analisis kepentingan peubah menunjukkan bahwa capaian numerasi pada periode sebelumnya merupakan prediktor yang paling dominan dalam menjelaskan capaian numerasi pada periode berikutnya. Selain faktor historis tersebut, sejumlah indikator lingkungan sekolah yang berkaitan dengan kesetaraan budaya, toleransi, dan inklusivitas juga teridentifikasi sebagai peubah penting dalam prediksi numerasi. Temuan ini menunjukkan bahwa capaian numerasi tidak hanya dipengaruhi oleh performa akademik sebelumnya, tetapi juga oleh kondisi sosial dan iklim sekolah yang mendukung proses pembelajaran. Secara keseluruhan, hasil penelitian menunjukkan bahwa penggunaan lagged response merupakan komponen penting dalam prediksi data longitudinal. MERF cenderung memberikan performa yang paling konsisten pada berbagai kondisi yang dievaluasi, sedangkan pada simulasi yang dilakukan dalam penelitian ini, keunggulan sMERF mulai muncul pada kondisi dengan ketergantungan temporal dan sinyal stokastik yang lebih kuat.; Longitudinal data are characterized by heterogeneity across units and temporal dependence among measurements, thus requiring a method that can accommodate both aspects simultaneously. The Linear Mixed Model (LMM) is a widely used approach because it can model variation across units through random effects. However, this approach remains within a parametric framework, making it less flexible in capturing nonlinear relationships and complex interactions among variables. Mixed Effects Random Forest (MERF) was developed by combining the flexibility of Random Forest in modeling nonlinear relationships with the random effects structure in hierarchical data. MERF was initially developed for clustered data and did not explicitly model temporal correlations among repeated measurements. Subsequently, Stochastic MERF (sMERF) was developed, which integrates stochastic processes to accommodate temporal correlations in longitudinal data. In addition to temporal correlation structures via stochastic processes, temporal relationships between measurements can also be represented through lagged responses. A lagged response is the value of the response variable from a previous time step used as a predictor to represent historical information. Studies evaluating and comparing the performance of LMM, MERF, and sMERF while considering the use of lagged responses remain relatively limited. This study aims to evaluate the predictive performance of LMM, MERF, and sMERF with and without lagged response variables on longitudinal data through simulation and empirical studies and to identify school-level contextual variables that play a significant role in predicting high school students’ numeracy achievement. The simulation study was conducted using 80 scenarios generated by combining levels of temporal dependency, individual heterogeneity, error, and stochastic processes. Each scenario was replicated 100 times, resulting in 8000 simulated datasets. Model evaluation was performed using Root Mean Square Error (RMSE) and the coefficient of determination (??2). In the empirical study, the model was applied to high school students’ numeracy data in West Java Province. Numeracy was chosen because it is a key indicator in educational quality assessment and continues to show relatively low achievement at both the national and international levels. The model’s performance on the empirical data was evaluated using RMSE, Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE), and ??2. The results of the simulation study show that the use of a lagged response consistently improves predictive performance across all evaluated methods and conditions. In nearly all simulation scenarios, models with a lagged response produced lower RMSE and higher ??2 values compared to models without a lagged response. These findings are supported by analysis of variance and bootstrap comparison sampling, which show that models with lagged response significantly provide better predictive performance than models without lagged response. These results indicate that historical information is a crucial component in predicting longitudinal responses because it captures the temporal dependence among measurements. Among the compared methods, MERF with a lagged response demonstrated the best performance in most simulation scenarios, as evidenced by the highest win rate and the best average ranking. Meanwhile, the advantages of sMERF were not universally evident across all simulation conditions. Improvements in sMERF’s performance began to emerge under conditions with stronger temporal dependencies and stochastic signals; however, it was not yet able to consistently outperform MERF. These results indicate that increasing model complexity by adding stochastic processes does not always lead to improved prediction accuracy; rather, it depends on the characteristics of the data being analyzed. In the empirical study, machine learning-based models generally produced better prediction performance than LMMs, both under conditions with and without a lagged response. The inclusion of a lagged response also improved predictive accuracy across all evaluated methods. MERF with a lagged response delivered the best performance, with an MAPE of 5.11% and an ??2 of 75.86%. Nevertheless, bootstrap results show that the performance ranges of MERF and sMERF tend to overlap, indicating that both methods provide relatively similar levels of accuracy. The consistency of results between the simulation and empirical studies reinforces the finding that the use of historical information contributes more significantly to improving prediction accuracy. An analysis of the variables’ significance indicates that numeracy achievement in the previous period is the most dominant predictor of numeracy achievement in the subsequent period. In addition to this historical factor, several school environment indicators related to cultural equity, tolerance, and inclusivity were also identified as important variables in predicting numeracy. These findings suggest that numeracy achievement is influenced not only by prior academic performance but also by social conditions and a school climate that supports the learning process. Overall, the results of this study indicate that the use of lagged responses is a key component in predicting longitudinal data. MERF tends to deliver the most consistent performance across the various conditions evaluated, whereas in the simulations conducted in this study, the advantages of sMERF begin to emerge under conditions with stronger temporal dependencies and stochastic signals. 2026-01-01T00:00:00Z