일반화된 참조 표현 세그멘테이션(GRES)은 단일 참조 표현이 여러 개체를 가리키거나 이미지에 존재하지 않는 대상을 식별할 수 있도록 확장된 참조 표현 세그멘테이션 문제이다. GSVA는 다중 [SEG] 토큰과 [REJ] 토큰을 학습하여 이러한 GRES 문제를 해결한다.