이 논문은 확산 모델을 활용하여 실제 이미지와 주석 없이도 의미 분할 모델을 학습하는 방법을 제안한다.
이미지-가짜 마스크 생성: 확산 모델의 텍스트-이미지 어텐션 맵을 활용하여 이미지와 가짜 마스크를 생성한다.
신뢰도 기반 강건 공동 학습: 가짜 마스크의 품질이 완벽하지 않기 때문에, 신뢰도 맵을 활용한 강건 공동 학습 기법을 제안한다. 이를 통해 신뢰도가 높은 영역은 완전 지도 학습, 신뢰도가 낮은 영역은 공동 학습을 수행한다.
프롬프트 증강: 제한된 프롬프트 집합을 확장하기 위해 유의어와 상위어 대체를 통한 프롬프트 증강 기법을 제안한다.
도메인 적응: 원본 확산 모델이 생성한 이미지와 타겟 도메인 간 격차를 줄이기 위해 LoRA 기반 도메인 적응 기법을 활용한다.
실험 결과, 제안 방법인 Attn2mask는 PASCAL VOC, ImageNet-S, Cityscapes 데이터셋에서 기존 합성 데이터 기반 의미 분할 방법들을 능가하는 성능을 보였다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Ryota Yoshih... о arxiv.org 04-16-2024
https://arxiv.org/pdf/2309.01369.pdfГлибші Запити