바뀜

둘러보기로 가기 검색하러 가기
1,315 바이트 추가됨 ,  2021년 12월 6일 (월) 17:43
65번째 줄: 65번째 줄:  
= 오버피팅 방지 =
 
= 오버피팅 방지 =
    +
== 네트워크 크기 줄이기 ==
 +
 +
===무조건 크게?===
 +
너무 많은 파라미터는 과적합의 원인이 되기도 한다. 과적합을 막기 위해 네트워크의 크기를 줄이는 것도 전략이다. 손실이 감소할때까지 점차 유닛의 수를 늘려가는 것이 일반전략.(일반적으로 네트워크가 크면 작은 네트워크보다 더 빠르게 과적합 되었다.) 네트워크가 크면 오히려 성능이 안좋아진다.
 
== 가중치 감소 ==
 
== 가중치 감소 ==
 
훈련을 많이 하다 보면 오버피팅이 일어나기도 한다. 일반적으로 오버피팅은 가중치의 값이 커서 발생하기 때문에 이를 제한하는 전략이다. 가중치 감소를 사용하면 훈련데이터의 정확도가 100%에 이르지 못하지만, 오히려 시험데이터에선 정확도가 올라간다.
 
훈련을 많이 하다 보면 오버피팅이 일어나기도 한다. 일반적으로 오버피팅은 가중치의 값이 커서 발생하기 때문에 이를 제한하는 전략이다. 가중치 감소를 사용하면 훈련데이터의 정확도가 100%에 이르지 못하지만, 오히려 시험데이터에선 정확도가 올라간다.
 +
 +
가중치 규제라고도 하며, L1, L2 규제 등이 있다.
 +
 +
* L1 규제 : 가중치의 절대값에 비례하는 비용이 추가(가중치의 L1 노름).
 +
* L2 규제 : 가중치의 제곱에 비례하는 비용이 추가(가중치의 L2 노름). L2 규제는 신경망에서 가중치 감쇠라고도 부른다.
    
== 드롭아웃 ==
 
== 드롭아웃 ==
74번째 줄: 83번째 줄:     
기계학습에선 여러 모델의 출력을 평균내어 답을 내는 앙상블학습이 정확도가 높다는 것이 실험적으로 알려져 있는데, 드롭아웃은 여러 모델을 만드는 효과를 한 모델에서 구현한 것이라 보아도 되겠다.
 
기계학습에선 여러 모델의 출력을 평균내어 답을 내는 앙상블학습이 정확도가 높다는 것이 실험적으로 알려져 있는데, 드롭아웃은 여러 모델을 만드는 효과를 한 모델에서 구현한 것이라 보아도 되겠다.
 +
 +
= 하이퍼파라미터 =
 +
훈련률, 가중치 감소 계수 등에서 어떤 값이 잘 들어맞을지는 직접 돌려봐야 알 수 있다. 각각의 훈련에서 수천번 이상의 훈련이 이루어지니, 하이퍼파라미터를 찾는 과정은 로그스케일로 널찍널찍하게 정해 연산을 수행한다. 굉장히 오랜시간이 걸리므로 가능성이 없는 값은 초기에 포기하는 편이 효율적이다. 가장 적절한 값이 있는 범위를 좁혀나가면서 최적의 값을 찾아나간다.
 
[[분류:딥러닝 이론]]
 
[[분류:딥러닝 이론]]

둘러보기 메뉴