Core Concepts
본 연구에서는 p 노름 정규화를 위한 새로운 가중치 감쇠 방법을 제안한다. 이 방법은 기존의 L2 가중치 감쇠를 일반화하여 임의의 p 노름에 적용할 수 있다. 제안된 방법은 적응형 최적화기와 호환되며, p < 1 노름에서 발생하는 기울기 발산 문제를 해결한다. 실험 결과, 제안된 방법은 표준 L2 정규화와 유사한 일반화 성능을 유지하면서 매우 희소한 네트워크를 생성할 수 있음을 보여준다.
Abstract
본 연구는 깊은 신경망의 계산 및 저장 요구사항을 줄이기 위한 스파스화 기법을 다룬다. 특히 p 노름 정규화를 기반으로 한 새로운 가중치 감쇠 방법을 제안한다.
주요 내용은 다음과 같다:
Lp 정규화 문제를 보조 변수를 도입한 상위 차원 최적화 문제로 변환하여 동등성을 보인다. 이를 통해 p < 1인 경우에도 안정적인 최적화가 가능하다.
p-norm Weight Decay (pWD)라는 새로운 가중치 감쇠 방법을 제안한다. pWD는 적응형 최적화기와 호환되며, p < 1 노름에서 발생하는 기울기 발산 문제를 해결한다.
다양한 과제와 아키텍처에 대해 pWD의 성능을 평가한다. 실험 결과, pWD는 표준 L2 정규화와 유사한 일반화 성능을 유지하면서 매우 희소한 네트워크를 생성할 수 있음을 보여준다.
pWD의 한계와 개선 방향을 논의한다. 예를 들어 보조 변수 s의 동적 업데이트, p 스케줄링, 탄력적 가중치 감쇠 등의 방법을 제안한다.
Stats
현대 신경망 모델은 매우 많은 연산과 메모리를 필요로 한다. 예를 들어 Inception-V4는 160억 연산과 4300만 개의 매개변수를 필요로 하고, GPT-4는 1.75조 개의 매개변수를 필요로 한다.
이러한 계산 및 저장 요구사항은 모델 성능 향상을 위한 장애물이 되고 있다.
스파스화는 이러한 문제를 해결하기 위한 주요 접근법 중 하나이다. 스파스화를 통해 연산을 건너뛰고 모델을 압축할 수 있다.
Quotes
"Deep neural networks (NNs) have garnered unparalleled success across a variety of domains ranging from vision (He et al., 2016) to language (Vaswani et al., 2017; van den Oord et al., 2016; Kalchbrenner et al., 2018). Modern network performance has been shown to scale with both model complexity and dataset size, now operating in the jointly large parameter and large data size regime (Hestness et al., 2017)."
"The resources required to train and deploy large NNs can, consequently, impose a bottleneck on further improvements (Kaplan et al., 2020). For instance, Inception-V4 (Szegedy et al., 2016), requires 16 billion arithmetic operations and 43 million parameters to be evaluated, while GPT-4 (OpenAI et al., 2023) requires over 1.75 trillion parameters (2 TiB assuming 16 bits per parameter)."