Kajian Selang Prediksi Hasil Quantile Regression Forest Dengan dan Tanpa Seleksi Peubah
Abstract
Prediksi dalam machine learning tidak hanya penting untuk memperkirakan
nilai suatu respon, tetapi juga untuk mengukur tingkat ketidakpastian dari hasil
tersebut. Informasi mengenai ketidakpastian biasanya disajikan melalui selang
prediksi yang menunjukkan rentang nilai kemungkinan dari suatu estimasi. Selang
prediksi yang sempit mencerminkan tingkat kepastian yang lebih tinggi, sedangkan
selang yang terlalu lebar menandakan hasil prediksi kurang presisi sehingga
berpotensi kurang informatif bagi pengambilan keputusan.
Pendekatan regresi linear konvensional termasuk quantile regression sering
digunakan untuk membentuk selang prediksi. Akan tetapi, model linear sangat
bergantung pada terpenuhinya asumsi tertentu, misalnya tidak adanya
multikolinearitas antar peubah prediktor. Kehadiran multikolinearitas
menyebabkan ragam estimasi meningkat dan selang prediksi menjadi lebih lebar.
Kondisi ini mendorong perlunya metode alternatif yang lebih fleksibel, salah
satunya quantile regression forest (QRF), yang mampu memperkirakan kuantil
bersyarat tanpa bergantung pada asumsi linearitas dan relatif lebih tahan terhadap
korelasi antar prediktor.
Berdasarkan hal tersebut, penelitian ini menyusun rancangan simulasi dengan
mengombinasikan tingkat korelasi antar prediktor, yaitu rendah (0,1), sedang (0,5),
dan tinggi (0,9). Setiap skenario dianalisis dengan dua pendekatan, yaitu QRF tanpa
seleksi peubah dan QRF dengan seleksi peubah menggunakan adaptive-LASSO.
Kinerja model dibandingkan melalui coverage rate selang prediksi, di mana metode
terbaik adalah yang menghasilkan coverage rate paling mendekati tingkat
kepercayaan. Untuk memperoleh hasil konsisten, seluruh proses simulasi diulang
sebanyak 100 kali dengan membentuk selang prediksi pada tingkat kepercayaan
90%, 95%, dan 99%.
Hasil analisis menunjukkan bahwa metode seleksi peubah dalam QRF
memberikan perbedaan signifikan terhadap coverage rate selang prediksi (p-value
< 5%). Selain itu, rata-rata coverage rate menurun seiring meningkatnya korelasi
antar peubah. Pada selang 90% dan 95%, penurunan ini justru menunjukkan
peningkatan akurasi karena hasilnya semakin mendekati target coverage rate.
Namun, pada selang 99%, penurunan menyebabkan hasil model menjauhi target.
Oleh karena itu, pemilihan model terbaik untuk data empiris sangat bergantung
pada tingkat korelasi antar peubah, sehingga eksplorasi korelasi menjadi tahap
penting sebelum penerapan QRF. Temuan tersebut diuji lebih lanjut menggunakan
data empiris produktivitas TBS kelapa sawit
Data produktivitas TBS kelapa sawit dianalisis pada 1.169 blok lahan seluas
33.367,45 ha selama Januari 2019–September 2023 dengan peubah campuran
numerik dan kategorik. Analisis korelasi menunjukkan bahwa sebagian besar
peubah prediktor memiliki hubungan yang lemah, dengan korelasi tertinggi 0,7 dan
contoh korelasi negatif -0,4 antara pupuk NPK dan pupuk HGFB. Temuan ini
mengindikasikan bahwa meskipun korelasi relatif rendah, langkah seleksi peubah
tetap penting untuk meningkatkan kinerja QRF dalam membentuk selang prediksi
yang lebih akurat.
Hasil simulasi sebelumnya mendukung temuan ini dengan menunjukkan
bahwa tingkat korelasi antar peubah prediktor berpengaruh terhadap kinerja QRF.
Pada kondisi korelasi rendah hingga sedang, coverage rate cenderung mendekati
target, sedangkan pada korelasi tinggi performa model menurun. Hal ini
menegaskan bahwa meskipun QRF bersifat non-linear dan relatif robust terhadap
multikolinearitas, penanganan tambahan berupa seleksi peubah masih dibutuhkan
agar hasil prediksi lebih stabil.
Seleksi peubah dilakukan dengan metode adaptive-LASSO yang
menghasilkan tujuh peubah utama, ditambah pembentukan lag pada dua peubah
dengan efek waktu. Dengan penambahan lag, jumlah prediktor yang digunakan
dalam analisis QRF meningkat menjadi 55 peubah. Penerapan model pada data
empiris memberikan hasil yang sejalan dengan simulasi, yaitu seleksi peubah tetap
mampu meningkatkan akurasi meskipun korelasi antar prediktor relatif rendah.
Melalui kombinasi adaptive-LASSO, QRF dapat menghasilkan selang prediksi
yang sesuai dengan target. Temuan ini menunjukkan bahwa seleksi peubah
berperan penting dalam membantu QRF bekerja lebih optimal.
Lebih lanjut, analisis berdasarkan varietas memperlihatkan bahwa selang
prediksi QRF memiliki coverage rate yang baik secara umum. Varietas Socfindo
dan PPKS menghasilkan selang prediksi yang paling optimal, sedangkan Topaz dan
Damimas cenderung kurang sesuai dengan target coverage rate. Selang prediksi
95% pada varietas Socfindo terbukti paling seimbang, dengan coverage rate yang
sesuai target tanpa memperlebar selang secara berlebihan. Dengan demikian,
kombinasi QRF dan seleksi peubah adaptif-LASSO dapat diandalkan sebagai
pendekatan efektif dalam analisis prediksi produktivitas TBS pada berbagai varietas
kelapa sawit.
