核心概念
TIPS는 합성 이미지 캡션과 자기 지도 학습 기법을 활용하여 밀집 예측 및 이미지 수준 예측 작업 모두에서 우수한 성능을 달성하는 범용 이미지-텍스트 인코더입니다.
摘要
TIPS: 공간 인지를 활용한 텍스트-이미지 사전 훈련
본 논문에서는 밀집 예측 및 전역적 비전 작업에 효과적으로 활용될 수 있는 새로운 범용 이미지-텍스트 모델인 TIPS(Text-Image Pretraining with Spatial awareness)를 제안합니다.
연구 배경
기존의 이미지-텍스트 표현 학습 모델은 공간 인지 능력이 부족하고 밀집 이해 작업에 직접적으로 적용하기에 제한적이었습니다. 반면 자기 지도 이미지 전용 사전 훈련은 명시적인 감독 신호가 부족함에도 불구하고 깊이 추정, 의미 분할과 같은 많은 밀집 비전 애플리케이션에 여전히 주요 방법으로 사용됩니다.
TIPS의 목표
본 논문에서는 이미지-텍스트 및 자기 지도 학습 간의 차이를 해소하여 밀집 및 전역적 비전 작업에 효과적으로 사용할 수 있는 범용 이미지-텍스트 모델을 제안합니다.
TIPS의 주요 아이디어
TIPS는 두 가지 간단하고 효과적인 아이디어를 활용합니다.
텍스트 감독 개선: 노이즈가 많은 웹 이미지 캡션을 합성적으로 생성된 텍스트 설명으로 대체하면 공간 인지 표현 학습을 위한 풍부한 신호를 얻을 수 있어 밀집 이해 성능이 크게 향상됩니다. 본 논문에서는 노이즈가 있는 캡션과 합성 캡션을 결합한 적응형 훈련 방법을 제안하여 밀집 및 전역적 이해 작업 모두에서 성능을 향상시킵니다.
학습 기법 개선: 대조적 이미지-텍스트 학습과 자기 지도 마스크 이미지 모델링을 결합하여 공간적 일관성을 장려하고 다운스트림 애플리케이션의 성능을 향상시킵니다.
TIPS의 구조
TIPS는 Vision Transformer(ViT) 아키텍처를 기반으로 하며, 이미지 인코더와 텍스트 인코더로 구성됩니다. 이미지 인코더는 이미지를 처리하여 전역 임베딩과 패치 임베딩을 생성합니다. 텍스트 인코더는 텍스트를 처리하여 텍스트 임베딩을 생성합니다. TIPS는 대조적 손실 함수를 사용하여 이미지 임베딩과 텍스트 임베딩을 정렬합니다. 또한 자기 증류 손실 함수와 마스킹 손실 함수를 사용하여 공간적 일관성을 장려합니다.
실험 결과
본 논문에서는 16개의 데이터셋을 포함한 8가지 작업에 대해 TIPS를 평가했습니다. 그 결과 TIPS는 밀집 예측(의미 분할, 깊이 추정, 표면 법선 추정) 및 전역적 예측(이미지 분류, 이미지-텍스트 검색) 모두에서 우수한 성능을 달성했습니다.
TIPS는 합성 이미지 캡션과 자기 지도 학습 기법을 활용하여 밀집 예측 및 이미지 수준 예측 작업 모두에서 우수한 성능을 달성하는 범용 이미지-텍스트 인코더입니다.