이 논문에서는 신경망의 활성화 편향이라는 현상을 식별하고, 이를 해결하기 위해 선형 제약 가중치(LCW)를 제안한다. 활성화 편향은 신경망의 전활성화 값이 이전 층의 활성화 벡터 평균과 뉴런의 가중치 벡터 사이의 각도에 따라 비정상적인 평균값을 가지는 현상이다.
LCW는 각 뉴런의 가중치 벡터의 합이 0이 되도록 제약하는 방식으로, 이를 통해 활성화 편향을 감소시킬 수 있다. 이러한 활성화 편향 감소가 신경망의 변수 분산 변화에 미치는 영향을 분석하였으며, 이것이 소실 경사 문제와 관련이 있음을 보였다.
실험 결과, LCW를 적용하면 시그모이드 활성화 함수를 사용하는 깊은 신경망을 효율적으로 학습할 수 있음을 보였다. 또한 배치 정규화와 결합하면 피드포워드 및 합성곱 신경망의 일반화 성능을 향상시킬 수 있다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Takuro Kutsu... at arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.13833.pdfDeeper Inquiries