본 논문은 확산 기반 시각적 인지를 위한 새로운 프레임워크인 IEDP를 제안한다. IEDP는 암시적 언어 안내 브랜치와 명시적 언어 안내 브랜치로 구성된다.
암시적 브랜치는 CLIP 이미지 인코더를 사용하여 암시적 텍스트 임베딩을 직접 생성하고, 이를 안정적인 확산 모델에 입력하여 특징 추출을 안내한다.
명시적 브랜치는 해당 이미지의 ground-truth 레이블을 텍스트 프롬프트로 사용하여 특징 추출을 안내한다. 이를 통해 노이즈가 없는 정확한 클래스 정보를 활용할 수 있다.
두 브랜치는 모델 가중치를 공유하며 함께 학습된다. 추론 시에는 오직 암시적 브랜치만 사용된다.
실험 결과, 제안 방법은 의미 분할 및 깊이 추정 작업에서 우수한 성능을 보였다. 예를 들어 의미 분할 작업에서 제안 방법은 기존 방법 대비 2.2% 향상된 mIoUss 점수를 달성했다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Hefeng Wang,... klokken arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07600.pdfDypere Spørsmål