Core Concepts
본 연구에서는 사전 학습된 비전-언어 모델을 활용하여 언어 정보 기반의 시각적 개념 표현을 학습하는 방법을 제안한다. 이를 통해 다양한 시각적 개념 축을 따라 개념 임베딩을 추출하고, 이를 재조합하여 새로운 개념 조합의 이미지를 생성할 수 있다.
Abstract
본 연구는 사전 학습된 비전-언어 모델을 활용하여 언어 정보 기반의 시각적 개념 표현을 학습하는 방법을 제안한다.
개념 인코더 학습:
입력 이미지에서 언어로 정의된 개념 축(예: 범주, 색상, 재질 등)을 따라 개념 임베딩을 추출하는 인코더를 학습한다.
사전 학습된 Text-to-Image (T2I) 모델을 활용하여 개념 임베딩을 재구성하는 것을 목표로 학습한다.
개념 축 간 디엔탱글링을 위해 사전 학습된 Visual Question Answering (VQA) 모델의 텍스트 임베딩을 앵커로 활용한다.
개념 재조합:
학습된 개념 인코더를 통해 테스트 이미지에서 개념 임베딩을 추출할 수 있다.
이 개념 임베딩을 재조합하여 새로운 개념 조합의 이미지를 생성할 수 있다.
미학습 개념 일반화:
테스트 시 경량 파인튜닝을 통해 학습 중 보지 못했던 새로운 개념에 대해서도 일반화할 수 있다.
실험 결과, 제안 방법은 기존 텍스트 기반 이미지 편집 방법에 비해 개념 디엔탱글링과 합성 능력이 우수한 것으로 나타났다.
Stats
이 이미지는 레드 바나나입니다.
이 이미지는 입니다.
Quotes
"언어로 정의된 개념 축을 따라 시각적 개념 표현을 학습하는 것이 목표입니다."
"개념 임베딩의 디엔탱글링을 위해 사전 학습된 VQA 모델의 텍스트 임베딩을 앵커로 활용합니다."
"테스트 시 경량 파인튜닝을 통해 미학습 개념에 대한 일반화 능력을 향상시킬 수 있습니다."