핵심 개념
본 논문에서는 사전 훈련된 비전-언어 모델(VLM)을 간단히 미세 조정하는 것만으로도 복잡한 기존 도메인 일반화(DG) 기법 없이도 경쟁력 있는 수준의, 때로는 더 뛰어난 일반화 성능을 달성할 수 있음을 보여줍니다.
초록
CLIP 기반 전이 학습을 통한 도메인 일반화된 조밀 인식을 위한 간단하지만 강력한 기준 모델 연구 논문 요약
Hümmer, C., Schwonberg, M., Zhou, L., Cao, H., Knoll, A., & Gottschalk, H. (2024). Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning. arXiv preprint arXiv:2312.02021v3.
본 연구는 사전 훈련된 비전-언어 모델(VLM)을 활용하여 도메인 일반화된 조밀 인식 작업에서 간단하면서도 효과적인 기준 모델을 제시하는 것을 목표로 합니다. 특히, 복잡한 추가 모듈이나 손실 함수 없이 간단한 미세 조정만으로도 높은 수준의 도메인 일반화 성능을 달성할 수 있는지 확인하고자 합니다.