"분류:강화학습"의 두 판 사이의 차이

Pywiki
둘러보기로 가기 검색하러 가기
(새 문서: == 개요 == 인간과 동물의 행동 방식에서 영감을 얻어 만들어졌다. 손다이크가 고양이를 이용하여 수행한 실험에서 그 근원을 찾는다. ===...)
 
잔글 (→‎개요)
 
(같은 사용자의 중간 판 하나는 보이지 않습니다)
6번째 줄: 6번째 줄:
  
 
실험이 반복될 때마다 고양이가 버튼을 누르는 속도가 빨라졌고, 보상이 특정 행동을 강화한다는 이론으로 교육학에서도 많이 언급되는 실험이다.
 
실험이 반복될 때마다 고양이가 버튼을 누르는 속도가 빨라졌고, 보상이 특정 행동을 강화한다는 이론으로 교육학에서도 많이 언급되는 실험이다.
 +
 +
= 기초 개념 =
 +
 +
== MDP ==
 +
Markov Decision Process. 어떤 상태는 바로 이전 상태로부터만 영향을 받는다는 가정. 러프한 가정이지만, 반복적으로 행동에 영향을 미친 근원을 파악하면 문제를 단순화할 수 있다. 현재상태를 S_t라 한다면, 바로 이전상태인 S_t-1에서 가장 큰 영향을 받는다. 그리고 이는 다시 S_t-2로부터.. 이를 식으로 표현하면...
 +
 +
결국 S_t-1 또한 과거로부터 얻은 결과의 합이기에 P(S_t | S_1, S_2, ...S_t-1) = P(S_t | S_t-1)로 쓸 수 있다. 역시 여전히 좀 러프하긴 한데... 하여간, 핵심은 일련의 상태를 전이확률로 표현한다.
 +
 +
조건부 확률로 전체 확률을 정의하는 것이다. MDP=(상태집합, 행동집합, 전이확률, 보상함수, 할인요인) 으로 이루어져 있다.
 +
 +
{| class="wikitable"
 +
|+
 +
!용어
 +
!설명
 +
|-
 +
|상태집합
 +
|MDP에서 가질 수 있는 모든 상태의 집합.
 +
|-
 +
|전이확률
 +
|<math>P^a_{S,S'}</math> : S에서 a를 취했을 때 S'로 변할 확률.
 +
|-
 +
|보상함수
 +
|<math>R^a_{S}</math> : S에서 a를 취했을 때 보상 기대값.
 +
|-
 +
|할인요인
 +
|과거의 행동을 얼마나 반영할지 정하는 값 0~1 사이.
 +
|}
 +
pi(전행동|전상태) = pi(전행동|전상태) * (1-0.1)
 +
 +
이때 0.1은 보상값. 그리고 그 직전의 판단은 pi(전전행동|전전상태) = pi(전전행동|전전상태) * (1-0.1*0.9)로 갱신한다. 0.9는 할인요인. 이를 더 거슬러 올라가 영향을 미쳤던 모든 선택에 정책값을 새로이 조절한다.
 +
 +
MDP는
 +
 +
1. 상태함수,
 +
 +
2. 보상함수가 주어져야 하고,
 +
 +
3. 제한적인 상태집합이 주어져야 한다.
 +
 +
 +
'''주요기법'''
 +
 +
- 몬테카를로 학습. MC.
 +
 +
- 시간차 학습. TD.
 
[[분류:머신러닝 기법]]
 
[[분류:머신러닝 기법]]

2022년 3월 7일 (월) 17:31 기준 최신판

1 개요[편집 | 원본 편집]

인간과 동물의 행동 방식에서 영감을 얻어 만들어졌다. 손다이크가 고양이를 이용하여 수행한 실험에서 그 근원을 찾는다.

1.1 손다이크의 실험[편집 | 원본 편집]

고양이를 상자 안에, 생선을 밖에 두고 고양이가 버튼을 누를 때에만 밖으로 나갈 수 있게 하였다.

실험이 반복될 때마다 고양이가 버튼을 누르는 속도가 빨라졌고, 보상이 특정 행동을 강화한다는 이론으로 교육학에서도 많이 언급되는 실험이다.

2 기초 개념[편집 | 원본 편집]

2.1 MDP[편집 | 원본 편집]

Markov Decision Process. 어떤 상태는 바로 이전 상태로부터만 영향을 받는다는 가정. 러프한 가정이지만, 반복적으로 행동에 영향을 미친 근원을 파악하면 문제를 단순화할 수 있다. 현재상태를 S_t라 한다면, 바로 이전상태인 S_t-1에서 가장 큰 영향을 받는다. 그리고 이는 다시 S_t-2로부터.. 이를 식으로 표현하면...

결국 S_t-1 또한 과거로부터 얻은 결과의 합이기에 P(S_t | S_1, S_2, ...S_t-1) = P(S_t | S_t-1)로 쓸 수 있다. 역시 여전히 좀 러프하긴 한데... 하여간, 핵심은 일련의 상태를 전이확률로 표현한다.

조건부 확률로 전체 확률을 정의하는 것이다. MDP=(상태집합, 행동집합, 전이확률, 보상함수, 할인요인) 으로 이루어져 있다.

용어 설명
상태집합 MDP에서 가질 수 있는 모든 상태의 집합.
전이확률  : S에서 a를 취했을 때 S'로 변할 확률.
보상함수  : S에서 a를 취했을 때 보상 기대값.
할인요인 과거의 행동을 얼마나 반영할지 정하는 값 0~1 사이.

pi(전행동|전상태) = pi(전행동|전상태) * (1-0.1)

이때 0.1은 보상값. 그리고 그 직전의 판단은 pi(전전행동|전전상태) = pi(전전행동|전전상태) * (1-0.1*0.9)로 갱신한다. 0.9는 할인요인. 이를 더 거슬러 올라가 영향을 미쳤던 모든 선택에 정책값을 새로이 조절한다.

MDP는

1. 상태함수,

2. 보상함수가 주어져야 하고,

3. 제한적인 상태집합이 주어져야 한다.


주요기법

- 몬테카를로 학습. MC.

- 시간차 학습. TD.

현재 이 분류에는 문서나 미디어가 하나도 없습니다.