이 논문은 확산 모델을 활용하여 실제 이미지와 주석 없이도 의미 분할 모델을 학습하는 방법을 제안한다.
이미지-가짜 마스크 생성: 확산 모델의 텍스트-이미지 어텐션 맵을 활용하여 이미지와 가짜 마스크를 생성한다.
신뢰도 기반 강건 공동 학습: 가짜 마스크의 품질이 완벽하지 않기 때문에, 신뢰도 맵을 활용한 강건 공동 학습 기법을 제안한다. 이를 통해 신뢰도가 높은 영역은 완전 지도 학습, 신뢰도가 낮은 영역은 공동 학습을 수행한다.
프롬프트 증강: 제한된 프롬프트 집합을 확장하기 위해 유의어와 상위어 대체를 통한 프롬프트 증강 기법을 제안한다.
도메인 적응: 원본 확산 모델이 생성한 이미지와 타겟 도메인 간 격차를 줄이기 위해 LoRA 기반 도메인 적응 기법을 활용한다.
실험 결과, 제안 방법인 Attn2mask는 PASCAL VOC, ImageNet-S, Cityscapes 데이터셋에서 기존 합성 데이터 기반 의미 분할 방법들을 능가하는 성능을 보였다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ryota Yoshih... lúc arxiv.org 04-16-2024
https://arxiv.org/pdf/2309.01369.pdfYêu cầu sâu hơn