핵심 개념
VLLaVO는 비전 언어 모델과 대형 언어 모델을 결합하여 시각 도메인 간 격차를 해소한다. 비전 언어 모델을 사용하여 이미지를 상세한 텍스트 설명으로 변환하고, 대형 언어 모델을 설계된 질문 지침 템플릿으로 미세 조정하여 도메인 불변 특징에 집중하도록 한다.
초록
이 논문은 시각 도메인 일반화(DG) 및 비지도 도메인 적응(UDA) 문제를 해결하기 위한 VLLaVO 방법을 제안한다.
먼저, 비전 언어 모델(VLM)을 사용하여 이미지를 상세한 텍스트 설명으로 변환한다. 이때 태그, 속성, 캡션 등 다양한 정보를 포함한다.
다음으로, 대형 언어 모델(LLM)을 설계된 질문 지침 템플릿으로 미세 조정한다. 이를 통해 LLM이 도메인 불변 정보에 집중하도록 한다. DG의 경우 모든 소스 도메인 데이터를 사용하여 LLM을 미세 조정하고, UDA의 경우 소스 도메인 데이터와 타겟 도메인의 의사 레이블 데이터를 활용한다.
실험 결과, VLLaVO는 다양한 벤치마크 데이터셋에서 DG 및 UDA 작업에서 최신 기술 수준을 능가하는 성능을 보였다. 또한 VLLaVM은 기존 VLM 기반 방법보다 우수한 성능을 보여, LLM을 활용하는 이점을 입증했다.
통계
도메인 간 텍스트 설명의 단어 빈도 차이가 크다. (Table 8)
VLLaVO의 LLM 임베딩은 도메인 간 격차가 작다. (Figure 1)
인용구
"Recent advances achieved by deep learning models rely on the independent and identically distributed assumption, hindering their applications in real-world scenarios with domain shifts."
"To tackle this issue, cross-domain learning aims at extracting domain-invariant knowledge to reduce the domain shift between training and testing data."