Reinforcement Learning คืออะไร

Reinforcement learning เป็นอัลกอริทึมการเรียนรู้แบบหนึ่งของ Machine Learning ที่ผู้เรียนรู้ระบบการทำงานของโลกโดยโมเดลโดยเฉพาะโดยให้ตัวตัดสินใจ (agent) ไปเรียนรู้แก่ตัวเองด้วยประสบการณ์ที่ได้จากการกระทำในโลกจริง โดยตัวตัดสินใจจะได้รับ feedback จากสิ่งแวดล้อมโดยเปลี่ยน state ของตัวเองไปเรื่อย ๆ จนกระทั่งกลายเป็นการทำงานในระบบตามเป้าหมาย

มาตรฐานคือหลักการตัดสินใจ Markovian ในการเรียนและวิเคราะห์ RL agent และแบบจำลอง state เป็น Markov decision process (MDP) ที่ประกอบด้วย (S, A, P, R, gamma) โดยที่ S แทน set ของ states, A แทน action space, P แทน probability transition model, R แทน reward function, และ gamma แทน discount factor เพื่อควบคุมการเลือก action โดยตัวเอง

การปรับปรุงโมเดล จะต้องมีการหาค่าที่ทำให้ loss function ของ model ต่ำที่สุดเท่าขนาด reward ที่ได้รับในแต่ละ state โดยใช้ policy optimization เทคนิคที่เกี่ยวข้องกับ gradient descent และ stochastic gradient descent (SGD) ในการอัพเดต weights ของโมเดลเพื่อปรับการตัดสินใจของตัวตัดสินใจให้แม่นยำขึ้น รูปแบบของการเรียนรู้แบบ Supervised Learning, Unsupervised Learning, และ Semi-Supervised Learning อาจถูกนำมาใช้ร่วมกับ Reinforcement Learning เพื่อเพิ่มประสิทธิภาพของการเรียนรู้