核心概念
다양한 모달리티 참조를 통해 픽셀 수준의 물체 지각을 생성하는 멀티모달 지시 조정 LLMs의 혁신적인 모델 소개
統計資料
모델은 565M개의 학습 가능한 매개변수를 포함하고 있음.
8개의 NVIDIA 32G V100 GPU에서 10K 반복으로 효율적으로 미세 조정됨.
引述
"AnyRef는 텍스트, 영역, 이미지 및 오디오와 같은 다양한 모달리티 참조를 통해 픽셀 수준의 물체 지각과 지역 인식 설명을 생성할 수 있는 첫 번째 일반 MLLM이다."
"Refocusing Mechanism은 마스크 임베딩을 향상시키기 위해 참조된 물체의 지상 표현을 집중시키는 간단하면서도 효과적인 메커니즘을 제안한다."