핵심 개념
모델 스톡은 단 2개의 미세 조정된 모델만으로도 기존의 다수의 모델을 평균화하는 방식보다 우수한 성능을 달성할 수 있다.
초록
이 논문은 대규모 사전 학습 모델을 효율적으로 미세 조정하는 방법을 소개한다. 기존의 관행과 달리, 다수의 미세 조정된 모델을 평균화하는 대신 매우 적은 수의 모델만으로도 우수한 성능을 달성할 수 있다.
- 미세 조정된 모델의 가중치 공간에서의 핵심 통찰을 바탕으로, 가중치 공간의 중심에 가까울수록 성능이 향상된다는 것을 발견했다.
- 이를 바탕으로 단 2개의 미세 조정된 모델만으로도 중심에 가까운 가중치를 근사할 수 있는 방법을 제안했다. 이 방법은 훈련 중 또는 훈련 후에 적용할 수 있다.
- 제안한 계층별 가중치 평균 기법은 기존의 모델 평균화 방식인 모델 수프보다 우수한 성능을 보이면서도 훨씬 적은 수의 모델만을 사용한다. 이를 모델 스톡이라 명명했다.
- CLIP 아키텍처 기반의 미세 조정 모델에 모델 스톡을 적용하여, 표준 벤치마크에서 인-분포 및 out-of-distribution 과제 모두에서 탁월한 성능을 달성했다.
통계
미세 조정된 모델의 가중치는 층별로 일정한 각도와 크기를 가진다.
가중치 중심에 가까울수록 ImageNet 및 분포 변화 벤치마크 성능이 향상된다.
모델 스톡은 2개의 미세 조정 모델만으로도 모델 수프보다 뛰어난 성능을 달성할 수 있다.
인용구
"모델 스톡은 단 2개의 미세 조정된 모델만으로도 기존의 다수의 모델을 평균화하는 방식보다 우수한 성능을 달성할 수 있다."
"미세 조정된 모델의 가중치 공간에서의 핵심 통찰을 바탕으로, 가중치 공간의 중심에 가까울수록 성능이 향상된다는 것을 발견했다."
"제안한 계층별 가중치 평균 기법은 기존의 모델 평균화 방식인 모델 수프보다 우수한 성능을 보이면서도 훨씬 적은 수의 모델만을 사용한다."