本論文は、指示画像セグメンテーション(RIS)のための新しい単一エンコーダフレームワークを提案している。従来のRISアプローチは、視覚と言語の特徴を別々のエンコーダで抽出し、後段で融合するデュアルエンコーダ方式を採用していた。しかし、このアプローチでは、エンコーダの事前学習段階と実際のRISタスクの要求レベルの間にミスマッチが生じ、十分な視覚-言語の相互作用が得られないという問題があった。
本論文では、単一のBEiT-3エンコーダを用いることで、事前学習段階から視覚-言語の密な相互作用を学習し、RISタスクに適した特徴表現を得ることができる。さらに、提案手法では、エンコーダから最終的な予測までの全プロセスで視覚-言語の相互作用を維持する「シームレスな融合」アプローチを採用している。これにより、ピクセル-単語レベルでの高度な整合性を実現している。
また、提案手法は、共有自己注意機構を活用した軽量なFPNとデコーダを導入することで、高性能かつ効率的なモデルを実現している。実験の結果、提案手法は従来手法を大幅に上回る性能を示し、パラメータ数とFLOPsの両面でも高い効率性を達成している。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы