Reinforcement learning (pemelajaran mesin)

Reinforcement learning (RL) adalah suatu bidang interdisipliner dalam pemelajaran mesin dan kontrol optimal yang berkaitan dengan bagaimana suatu agen cerdas dapat mengambil aksi di lingkungan yang dinamis dalam rangka untuk memaksimalkan penghargaan kumulatif. Reinforcement learning adalah salah satu dari tiga paradigma utama dalam pemelajaran mesin, di samping pemelajaran terawasi dan pemelajaran tak terawasi.

Reinforcement learning berbeda dengan pemelajaran yang terawasi dari dua sisi, yaitu tidak memerlukan penyajian pasangan masukan-keluaran yang telah dilabeli dan tidak memerlukan pengoreksian secara eksplisit untuk aksi yang kurang optimal. Fokus RL adalah untuk menemukan keseimbangan antara eksplorasi (wilayah yang belum dipetakan) dan eksploitasi (pengetahuan saat ini).[1]

Lingkungan (environment) RL biasanya dinyatakan dalam bentuk proses keputusan Markov (Markov Decision Proses (MDP)) karena banyaknya algoritma RL yang dalam konteks ini menggunakan teknik pemrograman dinamis.[2] Namun, terdapat perbedaan utama antara RL dengan pemrograman dinamis, yaitu RL tidak memerlukan pengetahuan (knowledge) eksak dari model matematis dari MDP, melainkan RL ini menargetkan MDP yang besar dan kompleks yang untuk mendapatkan model yang eksak menjadi sulit atau tidak mungkin dilakukan.[3]

Referensi

sunting
  1. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103 . doi:10.1613/jair.301. Diarsipkan dari versi asli tanggal 2001-11-20. 
  2. ^ van Otterlo, M.; Wiering, M. (2012). "Reinforcement Learning and Markov Decision Processes". Reinforcement Learning. Adaptation, Learning, and Optimization. 12. hlm. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6. 
  3. ^ Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control (edisi ke-First). Springer Verlag, Singapore. hlm. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. 

Sumber

sunting

Bacaan lanjutan

sunting

Pranala eksternal

sunting

Templat:Komputasi terdeferensialkan