바뀜

둘러보기로 가기 검색하러 가기
732 바이트 추가됨 ,  2021년 9월 14일 (화) 04:01
48번째 줄: 48번째 줄:  
Z2 = sigmoid_function(A2)
 
Z2 = sigmoid_function(A2)
 
</syntaxhighlight>
 
</syntaxhighlight>
 +
 +
= 가중치 =
 +
 +
== 가중치의 초기값 ==
 +
0에 치우치면 미분값이 0이 되기 때문에 훈련이 거의 일어나지 않는다. 이를 기울기 소실이라 부른다. 그렇다고 수를 가운데로 몰면 가중치가 비슷한 값들이 많아, 같은 크기의 훈련값을 갖게 된다. 이러면 뉴런을 여러개 두는 이유가 사라진다.
 +
 +
== Xavier ==
 +
때문에 Xavier초기값이 제안되어 쓰인다. 가장 적절한 초깃값을 찾기 위해 앞층 노드의 수에 따라 <math>\frac{1}{\sqrt{n}}</math>의 표준편차를 갖게 설정하는 것이 적절하다 알려져 있다. 이렇게 하면 다음 층까지 적절한 분산으로 전달되고, 훈련이 효율적으로 이루어진다.
 
[[분류:딥러닝 이론]]
 
[[분류:딥러닝 이론]]

둘러보기 메뉴