핵심 개념
오픈 어휘 주의 맵(OVAM)은 텍스트 기반 이미지 생성 모델에서 텍스트 프롬프트와 관계없이 의미 분할 가능
초록
확산 모델은 텍스트 프롬프트를 기반으로 고품질 이미지를 생성할 수 있지만, 기존 방식은 프롬프트에 포함된 단어에 한정된 의미 분할 마스크만 생성할 수 있었음
이 연구에서는 오픈 어휘 주의 맵(OVAM)이라는 새로운 방식을 제안하여, 프롬프트에 포함되지 않은 단어로도 의미 분할 마스크를 생성할 수 있게 함
OVAM은 이미지 생성 과정에서 추출된 주의 메커니즘을 활용하여 오픈 어휘 기반 의미 분할 마스크를 생성함
또한 단일 주석만으로도 정확한 의미 분할 마스크를 생성할 수 있도록 토큰 최적화 기법을 제안함
실험 결과, OVAM은 기존 방식 대비 의미 분할 성능을 크게 향상시켰으며, 합성 데이터 생성을 통해 실제 의미 분할 모델 학습에도 효과적임
통계
합성 데이터셋 COCO-cap에서 OVAM 최적화 토큰 사용 시 의미 분할 성능(mIoU)이 69.2%로 향상됨
실제 데이터가 부족한 상황에서 OVAM 합성 데이터를 활용하면 실제 데이터의 2배 사용 시와 유사한 성능(54.4% mIoU)을 달성할 수 있음
실제 데이터와 OVAM 합성 데이터를 함께 사용하면 최대 6.9%p mIoU 성능 향상이 가능함
인용구
"OVAM은 프롬프트에 포함된 단어에 한정되지 않고 오픈 어휘 기반 의미 분할 마스크를 생성할 수 있다."
"OVAM의 토큰 최적화 기법은 단일 주석만으로도 정확한 의미 분할 마스크를 생성할 수 있다."