바뀜

분류:강화학습 (편집)

2022년 3월 7일 (월) 17:31 판

1,690 바이트 추가됨 , 2022년 3월 7일 (월) 17:31

잔글

→‎손다이크의 실험

6번째 줄: 6번째 줄:

실험이 반복될 때마다 고양이가 버튼을 누르는 속도가 빨라졌고, 보상이 특정 행동을 강화한다는 이론으로 교육학에서도 많이 언급되는 실험이다.

+

= 기초 개념 =

+

== MDP ==

+

Markov Decision Process. 어떤 상태는 바로 이전 상태로부터만 영향을 받는다는 가정. 러프한 가정이지만, 반복적으로 행동에 영향을 미친 근원을 파악하면 문제를 단순화할 수 있다. 현재상태를 S_t라 한다면, 바로 이전상태인 S_t-1에서 가장 큰 영향을 받는다. 그리고 이는 다시 S_t-2로부터.. 이를 식으로 표현하면...

+

결국 S_t-1 또한 과거로부터 얻은 결과의 합이기에 P(S_t | S_1, S_2, ...S_t-1) = P(S_t | S_t-1)로 쓸 수 있다. 역시 여전히 좀 러프하긴 한데... 하여간, 핵심은 일련의 상태를 전이확률로 표현한다.

+

조건부 확률로 전체 확률을 정의하는 것이다. MDP=(상태집합, 행동집합, 전이확률, 보상함수, 할인요인) 으로 이루어져 있다.

+

{| class="wikitable"

+

|+

+

!용어

+

!설명

+

|-

+

|상태집합

+

|MDP에서 가질 수 있는 모든 상태의 집합.

+

|-

+

|전이확률

+

|<math>P^a_{S,S'}</math> : S에서 a를 취했을 때 S'로 변할 확률.

+

|-

+

|보상함수

+

|<math>R^a_{S}</math> : S에서 a를 취했을 때 보상 기대값.

+

|-

+

|할인요인

+

|과거의 행동을 얼마나 반영할지 정하는 값 0~1 사이.

+

|}

+

pi(전행동|전상태) = pi(전행동|전상태) * (1-0.1)

+

이때 0.1은 보상값. 그리고 그 직전의 판단은 pi(전전행동|전전상태) = pi(전전행동|전전상태) * (1-0.1*0.9)로 갱신한다. 0.9는 할인요인. 이를 더 거슬러 올라가 영향을 미쳤던 모든 선택에 정책값을 새로이 조절한다.

+

MDP는

+

1. 상태함수,

+

2. 보상함수가 주어져야 하고,

+

3. 제한적인 상태집합이 주어져야 한다.

[[분류:머신러닝 기법]]

Sam

사무관, 인터페이스 관리자, 관리자, 교사

편집

1,419

번