바뀜

둘러보기로 가기 검색하러 가기
2,056 바이트 추가됨 ,  2021년 9월 14일 (화) 04:50
편집 요약 없음
52번째 줄: 52번째 줄:     
== 가중치의 초기값 ==
 
== 가중치의 초기값 ==
0에 치우치면 미분값이 0이 되기 때문에 훈련이 거의 일어나지 않는다. 이를 기울기 소실이라 부른다. 그렇다고 수를 가운데로 몰면 가중치가 비슷한 값들이 많아, 같은 크기의 훈련값을 갖게 된다. 이러면 뉴런을 여러개 두는 이유가 사라진다.
+
0에 치우치면 미분값이 0이 되기 때문에 훈련이 거의 일어나지 않는다.(몇만번 반복해도 모델이 개선되지 않는 경우가 많다.) 이를 기울기 소실이라 부른다. 그렇다고 수를 가운데로 몰면 가중치가 비슷한 값들이 많아, 같은 크기의 훈련값을 갖게 된다. 이러면 뉴런을 여러개 두는 이유가 사라진다.
    
== Xavier ==
 
== Xavier ==
 
때문에 Xavier초기값이 제안되어 쓰인다. 가장 적절한 초깃값을 찾기 위해 앞층 노드의 수에 따라 <math>\frac{1}{\sqrt{n}}</math>의 표준편차를 갖게 설정하는 것이 적절하다 알려져 있다. 이렇게 하면 다음 층까지 적절한 분산으로 전달되고, 훈련이 효율적으로 이루어진다.
 
때문에 Xavier초기값이 제안되어 쓰인다. 가장 적절한 초깃값을 찾기 위해 앞층 노드의 수에 따라 <math>\frac{1}{\sqrt{n}}</math>의 표준편차를 갖게 설정하는 것이 적절하다 알려져 있다. 이렇게 하면 다음 층까지 적절한 분산으로 전달되고, 훈련이 효율적으로 이루어진다.
 +
 +
== He 초기값 ==
 +
Xavier 초기값은 활성화 함수가 선형인 것을 전제로 이끈 결과이다. 따라서 ReLU처럼 선형이 아닌 경우엔 여기에 맞는 초기값을 사용해야 하는데, 이를 찾아낸 카이밍 히의 이름을 따 He 초기값이라 부른다. 앞쪽의 노드가 n개일 때 <math>\frac{2}{\sqrt{n}}</math>의 표준편차를 갖게 분산시킨다. 단순히 ReLU에선 음의 영역이 0이기 때문에 2배 넓게 분포시켰다고 보아도 된다.
 +
 +
= 정규배치화 =
 +
층이 깊어지면서 인풋의 값이 점차 한 지점으로 몰리는 경향이 있어 초기값 설정이 중요했다. 그럼 자연스레 드는 의문은 '층의 끝에서 다시 초기의 정규배치를 갖게끔 조절해주면 되지 않을까?'인데, 실제로 이 방법을 쓰면 초기값 설정에 크게 구애받지 않고, 학습속도를 빠르게 만들어주었다. 초기값에 대한 전략과 정규배치화를 함께 사용하면 빠른 학습속도를 얻을 수 있다.
 +
 +
= 오버피팅 방지 =
 +
 +
== 가중치 감소 ==
 +
훈련을 많이 하다 보면 오버피팅이 일어나기도 한다. 일반적으로 오버피팅은 가중치의 값이 커서 발생하기 때문에 이를 제한하는 전략이다. 가중치 감소를 사용하면 훈련데이터의 정확도가 100%에 이르지 못하지만, 오히려 시험데이터에선 정확도가 올라간다.
 +
 +
== 드롭아웃 ==
 +
신경망이 복잡해지면 가중치 감소만으론 대응하기가 어려워진다고 한다. 이때 사용하는 방법으로, 뉴런을 임의로 삭제하면서 학습하는 방법이다.
 +
 +
학습할 땐 없애고, 추론할 땐 없앴던 비율을 곱하여 출력한다.
 +
 +
기계학습에선 여러 모델의 출력을 평균내어 답을 내는 앙상블학습이 정확도가 높다는 것이 실험적으로 알려져 있는데, 드롭아웃은 여러 모델을 만드는 효과를 한 모델에서 구현한 것이라 보아도 되겠다.
 
[[분류:딥러닝 이론]]
 
[[분류:딥러닝 이론]]

둘러보기 메뉴