Modifikasi Algoritma Q-Learning dengan Memanfaatkan Model Motivasi untuk Variasi Perencanaan Jalur Mobile Robot yang Optimal

Hidayat

Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/133867

Title:	Modifikasi Algoritma Q-Learning dengan Memanfaatkan Model Motivasi untuk Variasi Perencanaan Jalur Mobile Robot yang Optimal
Authors:	Buono, Agus Priandana, Karlisa Wahjuni, Sri Hidayat
Keywords:	Bogor Agricultural University (IPB)
Issue Date:	4-Jan-2024
Publisher:	IPB University
Abstract:	Teknologi pertanian telah berkembang dengan pesat menuju paradigma Agriculture 4.0 melalui penerapan digitalisasi, otomasi dan kecerdasan buatan. Perkembangan teknologi digital, otomasi dan kecerdasan buatan mendorong perubahan proses pengelolaan pertanian ke arah meningkatnya hasil produksi pertanian. Oleh karena itu, perubahan ini menghadirkan tantangan dan peluang sebagai perubahan dari penggunaan teknologi manual ke perangkat mekanis dan otomatis. Salah satunya adalah penerapan robot pertanian atau agriculture robot (Agrobot). Kehadiran agrobot dapat meningkatkan produktifitas dan kualitas hasil pertanian dan juga dapat mengurangi penggunaan tenaga manusia dalam proses pertanian sehingga secara otomatis meningkatkan efisiensi produksi pertanian. Penerapan teknologi robot pertanian dapat dilakukan pada setiap aktivitas dalam pertanian tersebut, yaitu pembibitan/ penanaman, pemeliharaan/ pemantauan, dan pemanenan. Perencanaan jalur merupakan salah satu bagian penting dalam penerapan robot pada pertanian, yaitu bagaimana robot dapat bergerak menelusuri lahan pertanian secara otonom tanpa kendali dan pengawasan manusia setiap waktu. Salah satu robot pertanian yang telah berhasil dikembangkan di IPB yaitu robot tank yang difungsikan sebagai robot pemanen buah melon. Mobile robot tersebut dapat bergerak mengikuti garis dalam Greenhouse namun belum dapat bergerak secara otonom dari pintu Greenhouse menuju gudang penyimpanan. Penelitian perencanaan jalur secara otonom dalam bidang robotika menjadi isu yang sangat populer dengan bermunculannya algoritma-algoritma yang diterapkan pada perencanaan jalur robot, salah satunya adalah algoritma Q-Learning. Algoritma Q-Learning merupakan algoritma metode reinforcement learning yang banyak dikembangkan dalam penelitian perencanaan jalur robot. Beberapa hasil penelitian menunjukkan bahwa algoritma ini dapat menghasilkan jalur robot yang optimal (jalur terpendek) dengan memanfaatkan konsep reward dan penalty. Penelitian awal dilakukan dengan menguji algoritma Q-Learning. Pengujian dilakukan pada area ATP Cikarawang yang dipetakan ke dalam bentuk susunan state. Hasil pengujian menunjukkan bahwa algoritma Q-Learning dapat menghasilkan perencanaan jalur yang optimal. Beberapa hasil pengujian cenderung menghasilkan jalur optimal yang sama. Hasil pengujian lainnya menunjukkan bahwa jumlah state pada suatu area sangat menentukan waktu konvergensi untuk menghasilkan jalur menuju target. Semakin banyak state yang berpeluang dilalui, semakin lama waktu konvergensinya. Namun, permasalahan pada penelitian ini adalah bagaimana algoritma Q-Learning dapat memberikan perencanaan jalur robot yang berbeda untuk beberapa mobile robot yang diterapkan pada area yang sama. Hal ini yang mendorong peneliti untuk mengembangkan algoritma Q-Learning dengan memanfaatkan model motivasi agar algoritma tersebut dapat memberikan variasi jalur yang berbeda untuk beberapa mobile robot di area yang sama namun tetap optimal (jalur terpendek atau mendekati jalur terpendek). Panjang jalur digambarkan dengan banyaknya state yang dilalui oleh jalur tersebut. Modifikasi algoritma Q-Learning dilakukan dengan memanfaatkan model motivasi berprestasi (achievement motivation). Model motivasi ini dimanfaatkan untuk mempengaruhi perubahan nilai reward pada state yang telah dijadikan jalur mobile robot sebelumnya. Penambahan peubah pada persamaan dalam Q-Learning dilakukan untuk menghasilkan nilai reward sesuai yang diharapkan, yaitu agen dapat menghindari tabrakan dalam perjalanan mencapai target. Pengujian dilakukan secara simulasi pada beberapa skenario dengan luas area yang berbeda serta ada tidaknya rintangan pada area tersebut. Selain itu, pengujian dilakukan pada target tunggal dan multi target. Hasil pengujian menunjukkan bahwa pengembangan algoritma Q-Learning dengan memanfaatkan model motivasi atau Motivated Q-Learning dapat menghasilkan variasi jalur yang berbeda namun tetap optimal (memiliki jarak terpendek atau mendekati jarak terpendek) dengan waktu komputasi mendekati waktu komputasi Q-Learning. Penentuan nilai-nilai pada peubah-peubah dalam model yang diusulkan sangat berpengaruh pada besar kecilnya nilai reward achievement. Pada penelitian ini, jumlah variasi perencanaan jalur yang dihasilkan adalah dua hingga empat jalur aman yang tidak berpotensi tabrakan jika semua mobile robot dijalankan secara bersamaan di area yang sama. Jaccard similarity antar jalur digunakan untuk mengetahui ada tidaknya state yang digunakan bersama sehingga dapat disimpulkan bahwa jalur-jalur tersebut berpotensi tabrakan. Nilai Jaccard similarity antar jalur yang tidak berpotensi tabrakan ditunjukkan dengan nilai 0%. Pada simulasi dengan menggunakan multi target, masing-masing jalur hasil Motivated Q-Learning dapat menuju ke target yang berbeda-beda. Sementara itu, pada algoritma Q-Learning semua jalur hanya menuju ke satu target terdekat. Adapun selisih waktu komputasi rata-rata Motivated Q-Learning dibandingkan dengan algoritma Q-Learning pada pengujian simulasi area 11×11 adalah 0,186 detik (skenario 1), 0,318 detik (skenario 2) dan 0,447 detik (skenario 3). Sementara itu, selisih waktu komputasi rata-rata pada pengujian simulasi area 31×31 adalah 0,712 detik (skenario 1), 0,722 detik (skenario 2) dan 1,319 detik (skenario 3). Hasil waktu komputasi ini menunjukkan bahwa waktu komputasi Motivated Q-Learning lebih lambat dibandingkan dengan algoritma Q-Learning. Meskipun Motivated Q-Learning memakan waktu komputasi lebih lambat, algoritma ini dapat menghasilkan dua hingga empat variasi jalur aman. Hasil ini diharapkan dapat menjadi solusi penerapan multi robot pada area yang sama agar setiap mobile robot dapat bergerak pada jalur masing-masing tanpa ada potensi bertabrakan.
URI:	http://repository.ipb.ac.id/handle/123456789/133867
Appears in Collections:	DT - Mathematics and Natural Science

Files in This Item:

File	Description	Size	Format
Cover_Disertasi S3KOM_Hidayat_G6601202001.pdf	Cover	450.61 kB	Adobe PDF	View/Open
Disertasi S3KOM_Hidayat_G6601202001.pdf Restricted Access	Fulltext	10.16 MB	Adobe PDF	View/Open
Lampiran_Disertasi S3KOM_Hidayat_G6601202001.pdf Restricted Access	Lampiran	815.48 kB	Adobe PDF	View/Open

Show full item record Recommend this item

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets