이 논문은 비전-언어 모델의 OOD(Out-of-Distribution) 일반화 문제를 다룬다. 기존 비전-언어 모델은 다양한 시각 도메인과 작업에서 강력한 일반화 능력을 보이지만, 폐쇄 집합 방식의 제로샷 인식에 한계가 있어 개방 도메인의 시각 개념을 다루기 어렵다. 최근 프롬프트 학습 등의 미세조정 방법이 ID(In-Distribution)와 OOD 샘플 간 구분을 연구하고 성능 향상을 보였지만, 여전히 과적합 문제가 존재한다.
이 논문에서는 먼저 적절한 정규화 없이 장기 미세조정을 수행하면 알려진 클래스에 과적합되어 알려지지 않은 클래스의 성능이 저하됨을 보인다. 이를 해결하기 위해 OGEN이라는 새로운 접근법을 제안한다. 핵심 아이디어는 클래스 조건부 특징 생성기를 도입하여 알려지지 않은 클래스의 특징을 합성하고, 이를 활용해 ID와 OOD 데이터 간 결정 경계를 더 잘 학습하는 것이다. 또한 적응형 자기 증류 메커니즘을 통해 생성기 모델의 과적합을 추가로 억제한다.
실험 결과, OGEN은 다양한 미세조정 기반선 모델에서 OOD 일반화 성능을 일관되게 향상시킨다. 특히 장기 미세조정에 취약한 CoOp 모델에서 두드러진 성능 향상을 보인다. 또한 교차 데이터셋 일반화 실험에서도 OGEN의 우수한 성능을 확인할 수 있다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Yuhang Zang,... um arxiv.org 04-17-2024
https://arxiv.org/pdf/2401.15914.pdfTiefere Fragen