What is the Plan ?
여기 Bellman equation을 통해 $ \gamma = 0.9 $ 로 놓고 각 state를 분석한 미로가 있다.
이 미로에 대한 정보는 Bellman Equation 편을 참고하길 바란다.
그렇다면 "Plan"이란 것은 무엇일까 ?
Plan이란 해당 state의 value를 바탕으로 "이 state에 도착하면 어떻게 할 것인가 ! "
에 대한 계획을 짜는 것이다.
따라서 각 state의 value 대신 어떻게 가야할지 간단히 화살표로 나타내어보자.
가장 좋은 시나리오는
Agent가 가능한 모든 state에 대해 value를 평가하여 다음과 같은 Plan를 짤 수 있는 것이 중요하다.
당연하지만, 다음과 같은 예시 plan에서는 어느 state에서 시작해도 결국 Goal까지 가는 것을 알 수 있다.
'Reinforcement learning 기초' 카테고리의 다른 글
[Reinforcement Learning] Living Penalty (0) | 2023.04.15 |
---|---|
[Reinforcement Learning ] Policy vs Plan (0) | 2023.04.12 |
[Reinforcement Learning] Markov Decision Process (0) | 2023.04.11 |
[Reinforcement Learning] Bellman Equation (0) | 2023.04.10 |
[Reinforcement Leanring] What is Reinforcement Learning ?! (0) | 2023.04.10 |
댓글