Centrala begrepp
본 연구는 저지연, 고품질, 다양한 프롬프트를 지원하는 차세대 대화형 이미지 분할 기술 SegNext를 제안한다. 기존 전문화된 모델과 범용 모델의 장점을 결합하여, 시각적 프롬프트의 밀집 표현과 융합을 통해 고품질 분할을 달성하고자 한다.
Sammanfattning
본 연구는 저지연, 고품질, 다양한 프롬프트를 지원하는 차세대 대화형 이미지 분할 기술 SegNext를 제안한다.
기존 전문화된 모델은 프롬프트와 이미지를 함께 인코딩하여 지연 시간이 높은 문제가 있었고, 범용 모델은 다양한 프롬프트를 지원하지만 고품질 분할에는 한계가 있었다.
본 연구는 시각적 프롬프트와 언어 프롬프트의 차이를 분석하여, 시각적 프롬프트를 밀집 표현하고 이를 이미지 특징과 융합하는 방식을 제안한다.
제안하는 SegNext 모델은 클릭, 박스, 폴리곤, 스크리블, 마스크 등 5가지 유형의 시각적 프롬프트를 3채널 밀집 맵으로 표현한다.
이미지 특징과 시각적 프롬프트 특징을 자기주의 블록을 통해 밀집 융합하고, 언어 프롬프트는 CLIP 모델로 인코딩하여 교차주의 블록으로 융합한다.
실험 결과, SegNext는 HQSeg-44K와 DAVIS 벤치마크에서 기존 최신 모델 대비 우수한 성능을 보였으며, 다양한 프롬프트에서도 강건한 성능을 보였다.
Statistik
제안 모델은 COCO+LVIS 데이터셋으로 학습되었으며, HQSeg-44K 데이터셋으로 추가 미세조정되었다.
제안 모델의 SAT 지연 시간은 A6000 GPU에서 17.6초이다.
제안 모델의 HQSeg-44K 5-mIoU는 91.75이며, DAVIS 5-mIoU는 91.87이다.
Citat
"시각적 프롬프트는 이미지 객체의 상세한 공간 정보를 제공하지만, 언어 프롬프트는 공간 정보 없이 의미적 통찰을 제공한다."
"시각적 프롬프트의 밀집 표현과 융합이 고품질 분할에 핵심적인 설계 선택이다."