[강화학습 스터디] Q-learning(table)
1. Dummy Q-learning 실제 Frozen Lake와 같은 게임을 진행할 경우 agent는 현재의 state만 볼 수 있다. 다른 곳을 보기 위해서는 action을 통해 다른 state로 이동해야 한다. agent가 state s에서 출발할 때 Random하게 가는 것이 아니라 Q를 이용하면 좋다. 1) Q-function 현재의 state s와 action a를 input으로 받아 결과에 대해 알려준다. state-action value function이라고 불리기도 한다. Q는 두 단계로 이루어진다. (1)에서는 현재의 s에서의 최대값을 찾고, (2)에서는 max값을 가지는 argument를 찾는다. 예를 들어, Q(s1, LEFT): 0, Q(s1, RIGHT): 0.5, Q(s1, UP..
심화 스터디/강화학습
2022. 3. 24. 12:12