Keskeiset käsitteet
PSALM은 대규모 멀티모달 모델의 한계를 극복하고 다양한 세그멘테이션 과제를 단일 모델로 해결할 수 있는 유연한 아키텍처를 제안한다.
Tiivistelmä
PSALM은 대규모 멀티모달 모델(LMM)의 한계를 극복하고자 마스크 디코더와 유연한 입력 스키마를 도입하였다. 입력 스키마는 이미지, 과제 지시 프롬프트, 조건 프롬프트, 마스크 토큰으로 구성되며, 이를 통해 다양한 세그멘테이션 과제를 단일 모델로 처리할 수 있다.
조건 프롬프트는 카테고리 조건, 문장 조건, 시각적 사전 조건으로 구분되며, 각 조건에 맞는 방식으로 마스크 분류기를 구성한다.
PSALM은 COCO Panoptic Segmentation, RefCOCO/+/g, COCO-Interactive 등의 과제에서 우수한 성능을 보였다. 또한 제안된 아키텍처와 입력 스키마의 유연성, 다중 과제 학습을 통해 제로샷 방식으로 일반화된 참조 표현 세그멘테이션, 오픈 어휘 세그멘테이션, 비디오 객체 세그멘테이션 등의 과제에서도 우수한 성능을 달성하였다.
Tilastot
다양한 세그멘테이션 과제를 단일 모델로 처리할 수 있다.
COCO Panoptic Segmentation에서 PQ 55.9, mAP 45.7, mIoU 66.6을 달성했다.
RefCOCO에서 cIoU 83.6, RefCOCO+에서 cIoU 72.9, RefCOCOg에서 cIoU 73.8을 달성했다.
COCO-Interactive에서 점, 스크리블, 박스, 마스크 입력에 대해 각각 mIoU 64.3, 66.9, 67.3, 67.6, cIoU 74.0, 80.0, 80.9, 82.4를 달성했다.
제로샷 방식으로 ADE20K 오픈 어휘 인스턴스 세그멘테이션에서 mAP 9.0, 시맨틱 세그멘테이션에서 mIoU 48.5를 달성했다.
제로샷 방식으로 gRefCOCO에서 cIoU 42.0, gIoU 43.3을 달성했다.
제로샷 방식으로 DAVIS-2017 비디오 객체 세그멘테이션에서 J&F 68.8을 달성했다.
Lainaukset
"PSALM은 대규모 멀티모달 모델의 한계를 극복하고 다양한 세그멘테이션 과제를 단일 모델로 해결할 수 있는 유연한 아키텍처를 제안한다."
"PSALM은 COCO Panoptic Segmentation, RefCOCO/+/g, COCO-Interactive 등의 과제에서 우수한 성능을 보였다."
"PSALM은 제로샷 방식으로 일반화된 참조 표현 세그멘테이션, 오픈 어휘 세그멘테이션, 비디오 객체 세그멘테이션 등의 과제에서도 우수한 성능을 달성하였다."