Core Concepts
本研究では、計算コストを削減しつつ、性能を向上させた視覚的顕著性検出モデルVST++を提案する。具体的には、前景領域と背景領域を選択的に処理するSelect-Integrate Attention (SIA)モジュールを導入し、深度情報を効率的に活用するDepth Position Encoding (DPE)を提案する。さらに、タスク関連トークンの学習を直接監督するトークン監督損失関数を導入することで、モデルの性能を向上させている。
Abstract
本研究では、効率的で強力な視覚的顕著性検出モデルVST++を提案している。
まず、前作のVSTモデルの課題であった計算コストの問題に取り組むため、SIAモジュールを導入した。SIAでは、前景領域を細かいセグメントに分割し、背景領域を1つの粗いトークンにまとめることで、計算コストを削減している。
次に、深度情報を効率的に活用するためのDepth Position Encoding (DPE)を提案した。DPEは、2D座標の位置エンコーディングに3D深度情報を組み合わせることで、深度情報を簡単に統合できる。
さらに、タスク関連トークンの学習を直接監督するトークン監督損失関数を導入した。これにより、タスク関連トークンがより効果的にタスク情報を学習できるようになり、モデルの性能が向上した。
最終的に、VST++は、計算コストを25%削減しつつ、RGB、RGB-D、RGB-Tの各種ベンチマークデータセットにおいて、従来手法を上回る性能を達成している。これは、本研究の提案手法が、効率性と性能の両立を実現できることを示している。
Stats
計算コストを25%削減できる
深度情報を効率的に活用できる
タスク関連トークンの学習を直接監督することで、モデルの性能を向上できる