본 연구는 확산 모델 기반 텍스트 기반 이미지 생성 시스템에 오픈 어휘 의미 분할 기능을 추가하였다.
오픈 어휘 주의 맵(OVAM): 기존 방법들이 텍스트 프롬프트에 포함된 단어에 국한되었던 것과 달리, OVAM은 프롬프트와 무관한 단어로도 주의 맵을 생성할 수 있다.
토큰 최적화: OVAM에 더해, 단일 주석만으로도 정확한 주의 맵을 생성할 수 있도록 토큰을 최적화하는 기법을 제안하였다. 이를 통해 기존 방법들의 성능을 향상시킬 수 있었다.
실험 결과: OVAM와 토큰 최적화를 통해 생성된 의사 마스크의 성능이 기존 방법 대비 크게 향상되었다. 또한 이를 활용해 합성 데이터를 생성하고 의미 분할 모델을 학습시킨 결과, 실제 데이터가 부족한 상황에서도 경쟁력 있는 성능을 보였다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Pabl... о arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14291.pdfГлибші Запити