Główne pojęcia
マンバ・ツイスターを統合したReMamberは、視覚-言語相互作用を効果的にモデル化し、マルチモーダル情報の融合を強化することで、参照画像セグメンテーションの精度を大幅に向上させる。
Streszczenie
本論文は、参照画像セグメンテーション(RIS)タスクにおいて、マンバ(Mamba)アーキテクチャを活用した新しいフレームワークReMamberを提案している。
ReMamberの主な特徴は以下の通り:
マンバ・ツイスターブロック: 視覚特徴と言語特徴の相互作用を明示的にモデル化し、チャンネルとスペース方向の「ツイスト」メカニズムを通じてマルチモーダル情報の融合を強化する。
効率的な特徴抽出: マンバベースのアーキテクチャにより、長距離の視覚-言語依存関係をリニアな計算量で捉えることができる。
優れた性能: 3つの主要ベンチマークデータセットで最先端の結果を達成し、マンバベースのアーキテクチャがマルチモーダル理解タスクに有効であることを実証している。
さらに、提案手法と他の融合手法の比較分析を行い、マンバ・ツイスターの優位性を示している。これらの知見は、今後のマルチモーダル理解研究に有益な示唆を与えるものと考えられる。
Statystyki
画像サイズは480×480ピクセルで、言語表現の平均長は8.4単語である。
RefCOCOデータセットには19,994枚の画像と142,210個の参照表現が含まれる。
RefCOCO+データセットには141,564個の参照表現が含まれる。
G-Refデータセットには26,711枚の画像と104,560個の参照表現が含まれる。