แนวคิดหลัก
오픈 어휘 주의 맵(OVAM)은 텍스트 기반 이미지 생성 모델에서 텍스트 프롬프트와 관계없이 의미 분할 가능
สถิติ
합성 이미지 데이터셋 VOC-sim에서 OVAM의 mIoU는 82.5%로, 기존 방법 대비 최대 14.2% 향상
합성 이미지 데이터셋 COCO-cap에서 OVAM의 mIoU는 69.2%로, 기존 방법 대비 최대 19.0% 향상
คำพูด
"OVAM은 프롬프트 단어와 관계없이 임의의 단어로 의미 분할이 가능하도록 하는 훈련 없는 접근법이다."
"OVAM의 토큰 최적화 기법은 단일 주석으로도 정확한 주의 맵을 생성할 수 있다."