Core Concepts
신경망의 일반화 능력에 대한 새로운 설명을 제공하고, 경사 하강법과 독립적인 딥러닝의 성공을 설명합니다.
Abstract
신경망의 일반화 능력에 대한 이해
경사 하강법과 독립적인 딥러닝의 성공에 대한 설명
무작위 가중치 네트워크의 복잡성 분석
트랜스포머 모델의 간결한 시퀀스 생성 능력
훈련된 모델의 추론 바이어스에 대한 실험
Stats
Chiang et al.은 무작위 가중치 네트워크가 훈련 데이터에 적합한 낮은 훈련 손실을 보여 테스트 데이터에 일반화하는 좋은 솔루션임을 보여줍니다.
Goldblum et al.은 무작위 가중치를 가진 언어 모델이 간결한 시퀀스에 편향되어 있음을 보여줍니다.
Quotes
"신경망의 일반화 능력에 대한 새로운 설명을 제공하고, 경사 하강법과 독립적인 딥러닝의 성공을 설명합니다." - Damien Teney
"신경망의 일반화 능력은 경사 하강법의 암묵적 편향과는 독립적으로 이해할 수 있습니다." - Armand Mihai Nicolicioiu