Concetti Chiave
오픈 어휘 주의 맵(OVAM)은 텍스트 기반 이미지 생성 모델에서 텍스트 프롬프트와 관계없이 의미 분할 가능
Statistiche
합성 데이터셋 COCO-cap에서 OVAM 최적화 토큰 사용 시 의미 분할 성능(mIoU)이 69.2%로 향상됨
실제 데이터가 부족한 상황에서 OVAM 합성 데이터를 활용하면 실제 데이터의 2배 사용 시와 유사한 성능(54.4% mIoU)을 달성할 수 있음
실제 데이터와 OVAM 합성 데이터를 함께 사용하면 최대 6.9%p mIoU 성능 향상이 가능함
Citazioni
"OVAM은 프롬프트에 포함된 단어에 한정되지 않고 오픈 어휘 기반 의미 분할 마스크를 생성할 수 있다."
"OVAM의 토큰 최적화 기법은 단일 주석만으로도 정확한 의미 분할 마스크를 생성할 수 있다."