이 논문은 최근 텍스트-이미지 생성 모델의 발전에도 불구하고 이를 표준 비전 인식 작업에 활용하는 것이 제한적이었다는 문제의식에서 출발한다. 기존의 접근법은 각 작업에 맞춰 모델 아키텍처와 손실 함수를 설계하는 것이었지만, 이 논문에서는 자연어 지시를 통해 다양한 비전 작업을 수행할 수 있는 통합 모델 InstructCV를 제안한다.
InstructCV는 텍스트-이미지 생성 모델을 활용하여 비전 작업을 텍스트-이미지 생성 문제로 재구성한다. 여기서 텍스트는 작업에 대한 지시를 나타내고, 생성된 이미지는 시각적으로 인코딩된 작업 출력이 된다. 모델 학습을 위해 세그멘테이션, 객체 탐지, 깊이 추정, 분류 등 다양한 비전 작업을 포함하는 데이터셋을 활용하고, 언어 모델을 사용하여 각 작업에 대한 다양한 지시문을 생성한다. 이를 통해 입력 이미지, 지시문, 시각적으로 인코딩된 작업 출력으로 구성된 멀티모달 데이터셋을 구축한다. 이 데이터셋을 활용하여 InstructPix2Pix 아키텍처를 통해 확산 모델을 학습시켜 범용 비전 학습기로 변환한다.
실험 결과, InstructCV는 기존의 작업 특화 모델과 범용 비전 모델에 비해 경쟁력 있는 성능을 보였다. 특히 새로운 데이터셋, 범주, 사용자 지시에 대한 일반화 능력이 뛰어났다. 이는 자연어 지시를 활용하여 모델의 범용성을 높인 접근법의 효과를 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yulu Gan,Sun... at arxiv.org 03-15-2024
https://arxiv.org/pdf/2310.00390.pdfDeeper Inquiries