Naive Concept
Mathematical concept
1) 강화학습(reinforcement learning)이란?
: computational approach to learning from interaction
이렇게 3가지의 가장 기본적인 개념으로 구성되는 시스템이라고 볼 수 있다. 환경과의 상호작용(보상)을 통해 새로운 행동을 취하고, 그에 따라 계속적으로 변하는 상태라고 이해할 수 있다.
2) 강화학습의 적용/응용 연구 분야
: 강화학습을 학습할 수 있는 간단한 게임들부터, 복잡한 강화학습 모델에 대한 환경까지 모두 제공하고 있는 파이썬 라이브러리이다. 여기에서는 강의에서 소개한 간단한 입문용 게임 몇개를 예시로 가져왔다.
https://www.notion.so/Day-1-184dfa016b7e47f49bda880718beb98a#81fb2992917b42b5b767c8292e0f178a
https://www.notion.so/Day-1-184dfa016b7e47f49bda880718beb98a#314ad1b19af748aebabd8586cc031e00
https://www.notion.so/Day-1-184dfa016b7e47f49bda880718beb98a#30c1773c827441afbde265bf208ffed2
1) 동적 계획법 (Dynamic Programming) : 동적 프로그래밍은 어디선가 여러번 들어봤을 말이지만, 이를 설명하기 위해 강화학습만큼 밀접한 관계를 맺고 있는 분야도 없다. 하나의 복잡한 문제(미로를 탈출하기)를 해결하기 위해, 작은 문제로 쪼개서 해결하는 재귀적 방식(단계마다 보상을 확인하는 방식)이라고 동적 계획법을 아주 간단하게 설명할 수 있다.
2) 벨만 방정식 : Deterministic world에 대해서
: non-deterministic world 인 경우, state에 따른 reward가 항상 정해져있지 않고 가변적이므로 조금 더 복잡한 식을 사용하게 된다.
https://www.notion.so/Day-1-184dfa016b7e47f49bda880718beb98a#4efcb1455e134dd699b1e8681a2a5e8c
n 주 후에 코카콜라를 구매하는 인구 수를 coca(n), 펩시콜라를 구매하는 인구를 pepsi(n)이라고 하면, 이번 주에 코카콜라를 사마시는 인구가 10억명이고 이번주에 펩시콜라를 사 마신 인구가 8억명이라고 하면,
이고 이를 행렬으로 표현하면 다음과 같다.
만약 이때 n이 무한정 커져서(아주 먼 미래에) 어떤 결과가 나타날지를 보고 싶다면?
n이 점차 10, 50 순으로 계속 커진다고 할 때 어떤 결과가 나타날지 나타내보면, 점차 하나의 값으로 수렴하는 것을 볼 수 있다. 이것은 행과 열의 합이 모두 1인 상태 변이 행렬을 가진 경우에만 해당되는 경우인데, 이 경우 현재의 초기값을 안다면 먼 미래의 값이 수렴하기 때문에 예측하기 쉬운 상태가 된다.
: 결론적으로 마르코프 특성을 기반으로, 환경과의 상호작용(결정 + 보상)을 포함하는 개념인 MDP를 요약하면 다음과 같은 모식도로 나타낼 수 있다.
https://inst.eecs.berkeley.edu/~cs188/sp22/
[강화학습 스터디] Multi Agent RL (0) | 2022.05.12 |
---|---|
[강화학습 스터디] Policy Based Methods (0) | 2022.05.12 |
[강화학습 스터디] Q-learning on Nondeterministic Worlds (0) | 2022.03.31 |
[강화학습] 랜덤탐색 / 칼만필터 (0) | 2022.03.31 |
[강화학습 스터디] Q-network (0) | 2022.03.31 |
댓글 영역