분류:강화학습

1 개요

인간과 동물의 행동 방식에서 영감을 얻어 만들어졌다. 손다이크가 고양이를 이용하여 수행한 실험에서 그 근원을 찾는다.

1.1 손다이크의 실험

고양이를 상자 안에, 생선을 밖에 두고 고양이가 버튼을 누를 때에만 밖으로 나갈 수 있게 하였다.

실험이 반복될 때마다 고양이가 버튼을 누르는 속도가 빨라졌고, 보상이 특정 행동을 강화한다는 이론으로 교육학에서도 많이 언급되는 실험이다.

2 기초 개념

2.1 MDP

Markov Decision Process. 어떤 상태는 바로 이전 상태로부터만 영향을 받는다는 가정. 러프한 가정이지만, 반복적으로 행동에 영향을 미친 근원을 파악하면 문제를 단순화할 수 있다. 현재상태를 S_t라 한다면, 바로 이전상태인 S_t-1에서 가장 큰 영향을 받는다. 그리고 이는 다시 S_t-2로부터.. 이를 식으로 표현하면...

결국 S_t-1 또한 과거로부터 얻은 결과의 합이기에 P(S_t | S_1, S_2, ...S_t-1) = P(S_t | S_t-1)로 쓸 수 있다. 역시 여전히 좀 러프하긴 한데... 하여간, 핵심은 일련의 상태를 전이확률로 표현한다.

조건부 확률로 전체 확률을 정의하는 것이다. MDP=(상태집합, 행동집합, 전이확률, 보상함수, 할인요인) 으로 이루어져 있다.

용어 설명
상태집합 MDP에서 가질 수 있는 모든 상태의 집합.
전이확률  : S에서 a를 취했을 때 S'로 변할 확률.
보상함수  : S에서 a를 취했을 때 보상 기대값.
할인요인 과거의 행동을 얼마나 반영할지 정하는 값 0~1 사이.

pi(전행동|전상태) = pi(전행동|전상태) * (1-0.1)

이때 0.1은 보상값. 그리고 그 직전의 판단은 pi(전전행동|전전상태) = pi(전전행동|전전상태) * (1-0.1*0.9)로 갱신한다. 0.9는 할인요인. 이를 더 거슬러 올라가 영향을 미쳤던 모든 선택에 정책값을 새로이 조절한다.

MDP는

1. 상태함수,

2. 보상함수가 주어져야 하고,

3. 제한적인 상태집합이 주어져야 한다.

현재 이 분류에는 문서나 미디어가 하나도 없습니다.