바뀜

둘러보기로 가기 검색하러 가기
1,690 바이트 추가됨 ,  2022년 3월 7일 (월) 17:31
잔글
6번째 줄: 6번째 줄:     
실험이 반복될 때마다 고양이가 버튼을 누르는 속도가 빨라졌고, 보상이 특정 행동을 강화한다는 이론으로 교육학에서도 많이 언급되는 실험이다.
 
실험이 반복될 때마다 고양이가 버튼을 누르는 속도가 빨라졌고, 보상이 특정 행동을 강화한다는 이론으로 교육학에서도 많이 언급되는 실험이다.
 +
 +
= 기초 개념 =
 +
 +
== MDP ==
 +
Markov Decision Process. 어떤 상태는 바로 이전 상태로부터만 영향을 받는다는 가정. 러프한 가정이지만, 반복적으로 행동에 영향을 미친 근원을 파악하면 문제를 단순화할 수 있다. 현재상태를 S_t라 한다면, 바로 이전상태인 S_t-1에서 가장 큰 영향을 받는다. 그리고 이는 다시 S_t-2로부터.. 이를 식으로 표현하면...
 +
 +
결국 S_t-1 또한 과거로부터 얻은 결과의 합이기에 P(S_t | S_1, S_2, ...S_t-1) = P(S_t | S_t-1)로 쓸 수 있다. 역시 여전히 좀 러프하긴 한데... 하여간, 핵심은 일련의 상태를 전이확률로 표현한다.
 +
 +
조건부 확률로 전체 확률을 정의하는 것이다. MDP=(상태집합, 행동집합, 전이확률, 보상함수, 할인요인) 으로 이루어져 있다.
 +
 +
{| class="wikitable"
 +
|+
 +
!용어
 +
!설명
 +
|-
 +
|상태집합
 +
|MDP에서 가질 수 있는 모든 상태의 집합.
 +
|-
 +
|전이확률
 +
|<math>P^a_{S,S'}</math> : S에서 a를 취했을 때 S'로 변할 확률.
 +
|-
 +
|보상함수
 +
|<math>R^a_{S}</math> : S에서 a를 취했을 때 보상 기대값.
 +
|-
 +
|할인요인
 +
|과거의 행동을 얼마나 반영할지 정하는 값 0~1 사이.
 +
|}
 +
pi(전행동|전상태) = pi(전행동|전상태) * (1-0.1)
 +
 +
이때 0.1은 보상값. 그리고 그 직전의 판단은 pi(전전행동|전전상태) = pi(전전행동|전전상태) * (1-0.1*0.9)로 갱신한다. 0.9는 할인요인. 이를 더 거슬러 올라가 영향을 미쳤던 모든 선택에 정책값을 새로이 조절한다.
 +
 +
MDP는
 +
 +
1. 상태함수,
 +
 +
2. 보상함수가 주어져야 하고,
 +
 +
3. 제한적인 상태집합이 주어져야 한다.
 
[[분류:머신러닝 기법]]
 
[[분류:머신러닝 기법]]

둘러보기 메뉴