Core Concepts
提案するHATモデルは、視覚探索課題と自由観察課題の両方の注視点列を単一のモデルで予測することができる。HATは、視覚情報の階層的な統合と動的な視覚ワーキングメモリの構築により、上位制御と下位制御の両方の注意メカニズムをモデル化している。
Abstract
本論文では、視覚注意制御の2つの形態である上位制御と下位制御を統一的に予測できるHATモデルを提案している。
まず、特徴抽出モジュールでは、画像からマルチスケールの特徴マップを抽出する。次に、注視点の履歴を表す周辺トークンと中心窩トークンから構成される動的なワーキングメモリを構築する。ワーキングメモリは、Transformerエンコーダによって更新される。
その後、タスク固有の注意重み付けクエリを用いて、ワーキングメモリから注意情報を選択的に集約する。最後に、集約された情報から注視点ヒートマップと終了確率を出力する。
HATは、視覚探索課題と自由観察課題の両方で最新のSOTAを達成している。特に、注視点列の順序や意味的な情報を良好に捉えられることが示されている。また、ワーキングメモリの注意重みの可視化により、HATの予測が解釈可能であることも示されている。
Stats
視覚探索課題の正解率は95%を超えている。
自由観察課題のcNSSスコアは3.382と高い値を示している。