本論文では、推論セグメンテーションタスクを効率的に実行するためのCoReSを提案している。推論セグメンテーションタスクは、複雑な問い合わせに対して正確にオブジェクト領域を特定する微妙な理解を要求するが、多モーダル大規模言語モデル(MLLM)はこの課題に苦戦することが多い。
CoReSは、人間の視覚探索の認知段階を反映するように設計されている。具体的には、推論チェーンと分割チェーンからなる二重チェーン構造を提案している。推論チェーンでは、MLLM出力にセマンティックレベルの階層的論理関係を埋め込むことで、視覚探索プロセスを段階的に誘導する。分割チェーンでは、推論チェーンの出力を活用して、段階的に最終的なセグメンテーション結果を生成する。
さらに、MLLM出力がこの意図された階層構造に沿うよう誘導するために、文脈入力を活用している。文脈入力は、MLLM出力に階層的論理ルールを埋め込むことで、推論セグメンテーションタスクの実行を支援する。
広範な実験の結果、CoRESは推論セグメンテーションベンチマークで最先端の手法を7.1%上回るパフォーマンスを示した。これは、CoRESが複雑な推論タスクに対して効果的な視覚探索プロセスを実現できることを示している。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы