이 논문은 데이터 없는 지식 증류(DFKD) 문제를 다룬다. DFKD는 원본 데이터에 접근하지 않고도 교사 신경망의 지식을 학생 신경망에 전달하는 것을 목표로 한다. 기존 DFKD 방법들은 무작위 노이즈 입력을 사용하여 합성 데이터를 생성하지만, 이는 의미 있는 정보가 부족하여 학습 시간이 오래 걸리고 낮은 품질의 출력을 생성하는 문제가 있다.
이 논문에서는 NAYER라는 새로운 DFKD 방법을 제안한다. NAYER는 입력의 무작위 소스를 제거하고 대신 의미 있는 레이블 텍스트 임베딩(LTE)을 입력으로 사용한다. LTE는 사전 훈련된 언어 모델을 통해 생성되며, 클래스 간 관계 정보를 포함하고 있어 적은 학습 단계로도 고품질의 합성 데이터를 생성할 수 있다.
또한 NAYER는 노이즈 레이어(NL)를 도입하여 LTE의 과도한 집중을 방지하고 다양성을 높인다. NL은 매 반복마다 무작위로 재초기화되어 다양한 합성 데이터를 생성할 수 있다. 나아가 NAYER는 단일 NL을 사용하여 여러 클래스의 합성 데이터를 동시에 생성하는 K-to-1 노이즈 레이어 전략을 제안한다.
실험 결과, NAYER는 기존 SOTA 방법들에 비해 5-15배 더 빠른 학습 속도와 더 높은 정확도를 달성했다. 또한 데이터 없는 양자화 실험에서도 NAYER의 우수성을 확인할 수 있었다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Minh-Tuan Tr... alle arxiv.org 03-25-2024
https://arxiv.org/pdf/2310.00258.pdfDomande più approfondite