Core Concepts
본 연구는 비전 변환기의 지식을 제한된 데이터와 계산 자원으로 활용하기 위한 새로운 적은 샘플 지식 증류 접근법을 제안한다.
Abstract
본 연구는 비전 변환기의 지식을 제한된 데이터와 계산 자원으로 활용하기 위한 새로운 적은 샘플 지식 증류 접근법인 WeCoLoRA를 제안한다. WeCoLoRA는 두 가지 핵심 단계로 구성된다.
첫째, 비전 변환기의 일관된 깊이 구조를 활용하여 기존 사전 학습된 비전 변환기(교사)의 중간 층 가중치를 더 얕은 구조(학생)로 직접 복사한다. 이때 복사 간격을 조절하여 학생 변환기의 복잡도를 교사 대비 조절한다.
둘째, 향상된 저순위 적응(LoRA) 기법을 사용하여 적은 샘플 시나리오에서 학생 모델로 지식을 증류한다. 이를 통해 건너뛴 교사 층의 정보 처리를 복구하고자 한다.
실험 결과, WeCoLoRA는 다양한 도메인의 5개 벤치마크 데이터셋에서 경쟁 기법 대비 우수한 성능을 보였다. 또한 구성 요소별 실험을 통해 각 제안 기법의 유용성을 입증하였다.
Stats
비전 변환기 교사 모델은 ImageNet-1K 데이터셋의 1% 또는 10%만을 사용하여 학생 모델을 증류할 수 있다.
학생 모델은 교사 모델 대비 2배 또는 3배 더 빠르게 추론할 수 있다.
WeCoLoRA 학생 모델은 WeCo+KD 학생 모델 대비 10.6 GFLOPs를 사용한다.
Quotes
"비전 변환기는 대규모 사전 학습 모델의 지식을 제한된 데이터와 계산 자원으로 활용할 수 있는 적은 샘플 지식 증류의 유망한 접근법이다."
"WeCoLoRA는 비전 변환기의 일관된 깊이 구조를 활용하여 중간 층 가중치를 직접 복사하고, 향상된 LoRA를 통해 건너뛴 교사 층의 정보 처리를 복구한다."
"실험 결과, WeCoLoRA는 다양한 도메인의 벤치마크 데이터셋에서 경쟁 기법 대비 우수한 성능을 보였다."