Core Concepts
Lipsum-FT는 비전-언어 모델의 파인튜닝 과정에서 언어 모델 출력을 활용하여 제로샷 모델과의 연결을 유지함으로써 분포 변화에 강건한 성능을 달성한다.
Abstract
이 논문은 비전-언어 모델의 강건한 파인튜닝 기법을 제안한다. 먼저 표준 파인튜닝 기법이 제로샷 모델의 성능을 저하시키는 문제를 확인하고, 이는 비전 모델과 언어 모델 간의 연결이 약화되기 때문임을 에너지 기반 모델 관점에서 분석한다. 이를 바탕으로 저자들은 Lipsum-FT라는 새로운 강건 파인튜닝 기법을 제안한다. Lipsum-FT는 파인튜닝 과정에서 랜덤 텍스트에 대한 언어 모델 출력을 활용하여 제로샷 모델과의 연결을 유지함으로써 분포 변화에 강건한 성능을 달성한다. 실험 결과, Lipsum-FT는 기존 강건 파인튜닝 기법들을 뛰어넘는 성능을 보였으며, 다른 강건화 기법들과도 효과적으로 결합될 수 있음을 확인하였다.
Stats
제로샷 CLIP 모델의 성능은 분포 변화 데이터에서 더 높지만, 파인튜닝 후에는 기준 데이터에서의 성능은 향상되나 분포 변화 데이터에서의 성능이 저하된다.
특징 왜곡 이론으로는 CLIP 모델의 강건성을 설명하기 어려우며, 비전-언어 모델의 에너지 함수 변화로 이를 설명할 수 있다.
Lipsum-FT는 랜덤 텍스트에 대한 언어 모델 출력을 활용하여 제로샷 모델과의 에너지 갭을 최소화함으로써 강건성을 향상시킨다.
Quotes
"Fine-tuning the zero-shot model can further improve the downstream performance of the zero-shot model. However, this fine-tuning procedure compromises robustness: the accuracy of the fine-tuned model decreases across distribution shifts compared to the accuracy of the initial zero-shot model."
"Our investigation begins by examining the conditions required to achieve the goals of robust fine-tuning, employing descriptions based on feature distortion theory and joint energy-based models."
"Lipsum-FT utilizes language model outputs to align the fine-tuned model with the zero-shot model. Notably, Lipsum-FT is the pioneering effort that considers the language modeling component of vision-language models for robust fine-tuning."