핵심 개념
다양한 모달리티 참조를 통해 픽셀 수준의 물체 지각을 생성하는 멀티모달 지시 조정 LLMs의 혁신적인 모델 소개
초록
멀티모달 지시 조정 LLMs는 다양한 모달리티 참조를 통해 픽셀 수준의 물체 지각과 언어 설명을 생성하는 모델이다.
AnyRef 모델은 텍스트, 영역, 이미지 및 오디오와 같은 다양한 모달리티 참조를 통해 통합된 지시 표현을 제공한다.
Refocusing Mechanism은 세분화된 마스크 임베딩을 향상시키기 위해 참조된 물체의 지상 표현을 집중시키는 메커니즘을 제안한다.
실험 결과는 멀티모달 지시 조정 LLMs의 성능이 다양한 벤치마크에서 우수함을 보여준다.
통계
모델은 565M개의 학습 가능한 매개변수를 포함하고 있음.
8개의 NVIDIA 32G V100 GPU에서 10K 반복으로 효율적으로 미세 조정됨.
인용구
"AnyRef는 텍스트, 영역, 이미지 및 오디오와 같은 다양한 모달리티 참조를 통해 픽셀 수준의 물체 지각과 지역 인식 설명을 생성할 수 있는 첫 번째 일반 MLLM이다."
"Refocusing Mechanism은 마스크 임베딩을 향상시키기 위해 참조된 물체의 지상 표현을 집중시키는 간단하면서도 효과적인 메커니즘을 제안한다."