本研究では、計算コストを削減しつつ、性能を向上させた視覚的顕著性検出モデルVST++を提案する。具体的には、前景領域と背景領域を選択的に処理するSelect-Integrate Attention (SIA)モジュールを導入し、深度情報を効率的に活用するDepth Position Encoding (DPE)を提案する。さらに、タスク関連トークンの学習を直接監督するトークン監督損失関数を導入することで、モデルの性能を向上させている。