이 논문에서는 신경망의 활성화 편향이라는 현상을 식별하고, 이를 해결하기 위해 선형 제약 가중치(LCW)를 제안한다. 활성화 편향은 신경망의 전 활성화 값이 이전 층의 활성화 벡터 평균과 뉴런의 가중치 벡터 사이의 각도에 따라 0이 아닌 평균값을 가지는 현상이다.
LCW는 각 뉴런의 가중치 벡터의 합이 0이 되도록 제약하는 방식으로, 완전 연결 층과 합성곱 층 모두에 적용할 수 있다. LCW를 적용하면 전 활성화 값의 평균이 0에 가까워져 활성화 편향이 감소한다.
이러한 활성화 편향 감소가 신경망의 변수 분산 변화에 미치는 영향을 분석하였다. LCW를 적용한 완전 연결 층에서는 정방향과 역방향 모두에서 동일한 비율로 분산이 증폭되지만, 활성화 편향이 있는 경우 정방향 분산 증폭이 역방향보다 더 크다. 이는 시그모이드 활성화 함수를 사용하는 심층 신경망에서 발생하는 기울기 소실 문제의 원인이 될 수 있다. 실험 결과, LCW를 적용하면 시그모이드 활성화 함수를 사용하는 심층 신경망을 효과적으로 학습할 수 있음을 보였다. 또한 배치 정규화와 결합하면 피드포워드 및 합성곱 신경망의 일반화 성능도 향상된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Takuro Kutsu... at arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.13833.pdfDeeper Inquiries