이 논문에서는 지시 기반 텍스트-이미지 확산 모델인 InstructCV를 제안한다. InstructCV는 기존의 텍스트-이미지 생성 모델을 활용하여 다양한 컴퓨터 비전 작업을 수행할 수 있는 범용 모델을 개발한다.
구체적으로 다음과 같은 과정을 거친다:
실험 결과, InstructCV는 기존의 태스크 특화 모델 및 범용 비전 모델들과 비교하여 경쟁력 있는 성능을 보였으며, 특히 새로운 데이터셋 및 카테고리에 대한 일반화 능력이 우수한 것으로 나타났다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yulu Gan,Sun... lúc arxiv.org 03-15-2024
https://arxiv.org/pdf/2310.00390.pdfYêu cầu sâu hơn