핵심 개념
選択的注意を用いることで、トランスフォーマーエンコーディングの堅牢性と構成性を向上させることができる。
초록
本論文では、Sparoと呼ばれる新しい読み出しメカニズムを提案している。Sparoは、トランスフォーマーエンコーディングを個別に注意を向けた複数のスロットに分割することで、選択的注意の概念をエンコーディングに組み込む。
具体的には以下のような特徴がある:
- 各スロットエンコーディングは、単一ヘッドのアテンションによって生成される低次元の結果である。これにより、各スロットが「選択的に注意を向ける」ことが奨励される。
- 複数のスロットを生成することで、並列的に異なる概念に注意を向けることができる。
- CLIPモデルにSparoを適用することで、両モダリティが共通の構成的な世界を表現するという誘導バイアスを与える。
実験の結果、Sparoを用いることで以下のような改善が見られた:
- 零shot認識、ロバスト性、構成性、リトリーバルの向上 (最大+14%)
- CLIPとDINOのリニアプローブ精度の向上 (+3-10%)
さらに、Sparoのスロット構造を利用して、関連するスロットを選択的に使うことで、さらなる性能向上が可能であることを示した。
통계
選択的注意は人間の知覚の本質的な特徴である。
トランスフォーマーのアテンションメカニズムは選択的注意の概念を部分的に模倣しているが、トランスフォーマーエンコーディングはまだ堅牢性と構成性に課題がある。
Sparoは、トランスフォーマーエンコーディングを個別に注意を向けた複数のスロットに分割することで、選択的注意の概念を組み込む。
인용구
"Selective attention helps us focus on task-relevant aspects in the constant flood of our sensory input. This constraint in our perception allows us to robustly generalize under distractions and to new compositions of perceivable concepts."
"Transformers employ a similar notion of attention in their architecture, but representation learning models with transformer backbones like CLIP and DINO often fail to demonstrate robustness and compositionality."