PSALM은 대규모 멀티모달 모델(LMM)을 기반으로 하며, 마스크 디코더와 유연한 입력 스키마를 통해 다양한 세그멘테이션 과제를 해결할 수 있다. 입력 스키마는 이미지, 과제 지시 프롬프트, 조건 프롬프트, 마스크 토큰으로 구성되며, LMM이 이를 처리하여 마스크 토큰을 출력한다. 마스크 생성기는 이 마스크 토큰을 입력받아 세그멘테이션 마스크를 생성하고 분류한다.
PSALM은 범용 세그멘테이션, 참조 세그멘테이션, 대화형 세그멘테이션 등 다양한 과제에서 우수한 성능을 보였다. 또한 제안된 아키텍처와 입력 스키마의 유연성, 다중 과제 공동 학습을 통해 제로샷 학습 능력을 보여주었다. 이는 컴퓨터 비전 분야에서 GPT 모멘트를 실현하는 데 중요한 진전이 될 것으로 기대된다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問