核心概念
신경망 학습을 위해 메모리 소비가 많은 우도비 방법의 한계를 해결하기 위해 근사 기법을 제안하고, 이를 통해 효율적이고 생물학적으로 타당한 학습 프레임워크를 제시한다.
摘要
이 논문은 신경망 학습을 위한 효율적이고 생물학적으로 타당한 근사 우도비 프레임워크를 제안한다.
- 우도비 방법은 메모리 소비가 많은 문제가 있어 실용적 적용에 한계가 있다. 이를 해결하기 위해 근사 기법을 제안한다.
- 근사 기법은 중간 변수의 부호만 사용하여 메모리 소비를 크게 줄이면서도 학습 성능을 유지할 수 있다.
- 근사 우도비 계산의 병렬성을 활용하여 고성능 학습 전략을 제안한다. 이를 통해 기존 역전파 방식 대비 이론적/실험적으로 학습 시간을 단축할 수 있다.
- 다양한 신경망 구조와 데이터셋에 대한 실험을 통해 근사 우도비 방법의 효과성과 확장성을 검증한다.
統計資料
175억 개의 매개변수를 가진 GPT-3 모델의 학습에 1,024개의 GPU를 사용하여 34일이 소요된다.
ResNet-9 모델을 CIFAR-100 데이터셋으로 학습할 때, 데이터 복사 개수를 100개에서 500개로 늘리면 평균 gradient 추정 정확도가 0.17에서 0.28로 향상되어 분류 정확도가 18.6%에서 38.5%로 증가한다.
引述
"Efficient and biologically plausible alternatives to backpropagation in neural network training remain a challenge due to issues such as high computational complexity and additional assumptions about neural networks, which limit scalability to deeper networks."
"The likelihood ratio method offers a promising gradient estimation strategy but is constrained by significant memory consumption, especially when deploying multiple copies of data to reduce estimation variance."