Core Concepts
MLLMsによる画像言語タスク向けの新しいモデル、AnyRefの提案とその性能評価。
Abstract
この記事では、新しいMLLMモデルであるAnyRefが提案され、その性能が複数のベンチマークで評価されました。AnyRefは、テキスト、ボックス、画像、オーディオなどの複数のモダリティ参照からピクセル単位の物体知覚と自然言語記述を生成する能力を持ちます。また、提案された再焦点化メカニズムにより、セグメンテーション埋め込みが強化され、優れたピクセルレベルビジョン知覚能力が実現されています。各種タスクにおいて驚異的なパフォーマンスを発揮し、柔軟な相互作用を提供しています。
Stats
AnyRefは565M個の学習可能なパラメーターを含んでいます。
8つのNVIDIA 32G V100 GPUで10K回のイテレーションで効果的に微調整可能です。
Quotes
"Can you segment the object(s) that produce sound of <aud ref><aud feat></aud ref> in this image?"
"Can you find similar object of <img ref><img feat></img ref> in this image?"
"Our model achieves state-of-the-art results across multiple benchmarks."