때문에 Xavier초기값이 제안되어 쓰인다. 가장 적절한 초깃값을 찾기 위해 앞층 노드의 수에 따라 <math>\frac{1}{\sqrt{n}}</math>의 표준편차를 갖게 설정하는 것이 적절하다 알려져 있다. 이렇게 하면 다음 층까지 적절한 분산으로 전달되고, 훈련이 효율적으로 이루어진다. | 때문에 Xavier초기값이 제안되어 쓰인다. 가장 적절한 초깃값을 찾기 위해 앞층 노드의 수에 따라 <math>\frac{1}{\sqrt{n}}</math>의 표준편차를 갖게 설정하는 것이 적절하다 알려져 있다. 이렇게 하면 다음 층까지 적절한 분산으로 전달되고, 훈련이 효율적으로 이루어진다. |