Pengembangan Modifikasi Algoritma Q-Learning melalui Reward Shaping dan Challenge Level untuk Optimasi Jalur Robot
Date
2025Author
Fitriyaningsih, Eva
Hardhienata, Medria Kusuma Dewi
Hermadi, Irman
Metadata
Show full item recordAbstract
Optimasi jalur robot di lingkungan yang berubah-ubah merupakan tantangan signifikan. Penelitian ini mengembangkan algoritma Q-Learning yang dimodifikasi menggunakan pendekatan Flow-Based Reinforcement Learning (FBRL) untuk meningkatkan efisiensi dan adaptasi agen. Algoritma ini mengintegrasikan parameter anxiety dan challenge level yang secara adaptif menyesuaikan tingkat kesulitan lingkungan berdasarkan performa agen, yang dipandu oleh reward shaping. Pengujian dilakukan pada lingkungan grid 38×28 berdasarkan peta nyata (ATP IPB), dengan rintangan statis dan non-stasioner yang disesuaikan melalui validasi Breadth-First Search (BFS). Hasil pengujian menunjukkan bahwa pada mode non-stasioner, agen melewati rata-rata 58,2–67,0 state, dengan 12,1–13,3 belokan dan waktu tempuh 70,1–85,3 detik, sesuai tingkat kesulitan lingkungan. Hasil ini kemudian diuji ulang pada mode statis. Pada mode statis dengan tingkat kesulitan rendah, algoritma modifikasi dengan reward shaping menunjukkan tingkat keberhasilan 72,2%–100%, dengan rata-rata 7,2 belokan dan waktu tempuh 61,2 detik, lebih efisien dibanding Q-Learning dasar (15,7 belokan dan waktu 71,1 detik). Pada tingkat kesulitan tinggi, algoritma dasar mengalami penurunan performa (1,8%–40,4%), sedangkan algoritma modifikasi tetap stabil dengan keberhasilan 72,2%–100%.
