แนวคิดหลัก
일반화된 참조 표현 세그멘테이션(GRES)은 단일 참조 표현이 여러 개체를 가리키거나 이미지에 존재하지 않는 대상을 식별할 수 있도록 확장된 참조 표현 세그멘테이션 문제이다. GSVA는 다중 [SEG] 토큰과 [REJ] 토큰을 학습하여 이러한 GRES 문제를 해결한다.
บทคัดย่อ
이 논문은 일반화된 세그멘테이션 비전 어시스턴트(GSVA)라는 새로운 다중 모달 대형 언어 모델을 소개한다. GSVA는 다중 [SEG] 토큰과 [REJ] 토큰을 도입하여 다중 목표 세그멘테이션과 빈 목표 거부를 효과적으로 달성한다. 이를 통해 실제 응용 시나리오에서의 어려운 세그멘테이션 문제인 일반화된 참조 표현 세그멘테이션(GRES)을 해결한다.
GSVA의 핵심 설계는 다음과 같다:
- 다중 [SEG] 토큰: GSVA는 단일 [SEG] 토큰의 제한을 완화하여 여러 개체를 동시에 세그멘테이션할 수 있다. 각 [SEG] 토큰 앞에 해당 개체의 참조 표현을 추가하여 모호성을 해결한다.
- [REJ] 토큰: GSVA는 이미지에 존재하지 않는 개체에 대해 [REJ] 토큰을 예측하여 세그멘테이션 모델이 이를 거부할 수 있도록 한다. 이를 통해 잘못된 세그멘테이션을 방지한다.
실험 결과, GSVA는 GRES 벤치마크 데이터셋 gRefCOCO에서 우수한 성능을 보였으며, 기존 참조 표현 세그멘테이션 및 이해 과제에서도 효과적인 것으로 나타났다.
สถิติ
이미지에 존재하지 않는 개체를 참조하는 경우 [REJ] 토큰을 예측하여 빈 마스크를 출력한다.
여러 개체를 동시에 참조하는 경우 각 개체에 대한 [SEG] 토큰을 예측하여 개별 마스크를 출력한다.
คำพูด
"GSVA는 다중 [SEG] 토큰과 [REJ] 토큰을 도입하여 다중 목표 세그멘테이션과 빈 목표 거부를 효과적으로 달성한다."
"GSVA는 GRES 벤치마크 데이터셋 gRefCOCO에서 우수한 성능을 보였으며, 기존 참조 표현 세그멘테이션 및 이해 과제에서도 효과적인 것으로 나타났다."