核心概念
지시 기반 텍스트-이미지 확산 모델을 활용하여 다양한 컴퓨터 비전 작업을 수행할 수 있는 범용 모델을 개발하였다.
要約
이 논문에서는 지시 기반 텍스트-이미지 확산 모델인 InstructCV를 제안한다. InstructCV는 기존의 텍스트-이미지 생성 모델을 활용하여 다양한 컴퓨터 비전 작업을 수행할 수 있는 범용 모델을 개발한다.
구체적으로 다음과 같은 과정을 거친다:
- 세그멘테이션, 객체 탐지, 깊이 추정, 분류 등 다양한 비전 작업 데이터셋을 통합하여 멀티모달, 멀티태스크 데이터셋을 구축한다.
- 각 작업에 대한 자연어 지시문을 생성하고, 작업 결과를 시각적으로 인코딩하여 데이터셋을 구성한다.
- 사전 학습된 텍스트-이미지 확산 모델을 이용하여 지시 기반 학습을 수행하여 InstructCV 모델을 학습한다.
실험 결과, InstructCV는 기존의 태스크 특화 모델 및 범용 비전 모델들과 비교하여 경쟁력 있는 성능을 보였으며, 특히 새로운 데이터셋 및 카테고리에 대한 일반화 능력이 우수한 것으로 나타났다.
統計
깊이 추정 작업에서 InstructCV는 기존 최고 모델 대비 RMSE 10% 향상
세그멘테이션 작업에서 InstructCV는 Unified-IO 대비 mIoU 24.4 향상
객체 탐지 작업에서 InstructCV는 Pix2SeqV2 대비 VOC 데이터셋에서 mAP@0.5 23.2 향상
引用
"지시 기반 텍스트-이미지 확산 모델을 활용하여 다양한 컴퓨터 비전 작업을 수행할 수 있는 범용 모델을 개발하였다."
"InstructCV는 기존의 태스크 특화 모델 및 범용 비전 모델들과 비교하여 경쟁력 있는 성능을 보였으며, 특히 새로운 데이터셋 및 카테고리에 대한 일반화 능력이 우수한 것으로 나타났다."