Core Concepts
단계별 가중치 공유를 통해 learngene 층을 학습하고, 이를 활용하여 다양한 크기의 모델을 효율적으로 초기화할 수 있다.
Abstract
이 논문은 변형 가능한 모델을 효율적으로 초기화하는 방법인 Stage-wise Weight Sharing (SWS)를 제안한다.
먼저 여러 단계로 구성된 보조 모델(Aux-Net)을 설계하고, 각 단계 내에서 가중치를 공유하며 이를 통해 learngene 층을 학습한다.
이렇게 학습된 learngene 층은 해당 단계에 맞게 확장되어 다양한 크기의 모델(Des-Net)을 초기화하는 데 사용된다.
실험 결과, SWS는 기존 방법들에 비해 더 나은 성능을 보이면서도 훈련 비용을 크게 줄일 수 있다.
또한 ImageNet-1K에서 직접 평가했을 때 다른 초기화 방법들을 크게 앞선다.
변형 가능한 모델을 구축할 때에도 SWS가 더 나은 결과를 보이면서 초기화에 필요한 저장 공간과 사전 훈련 비용을 크게 줄일 수 있다.
Stats
기존 방법 대비 SWS는 Des-B-12 모델에서 9.4% 더 높은 성능을 보인다.
SWS는 Des-B 모델 10개를 학습할 때 총 훈련 비용을 6.6배 줄일 수 있다.
SWS는 Des-B 모델 10개를 초기화할 때 필요한 저장 공간을 20배, 사전 훈련 비용을 10배 줄일 수 있다.
Quotes
"SWS는 기존 방법들에 비해 더 나은 성능을 보이면서도 훈련 비용을 크게 줄일 수 있다."
"SWS는 ImageNet-1K에서 직접 평가했을 때 다른 초기화 방법들을 크게 앞선다."
"SWS는 변형 가능한 모델을 구축할 때 더 나은 결과를 보이면서 초기화에 필요한 저장 공간과 사전 훈련 비용을 크게 줄일 수 있다."