核心概念
複数シーンの絶対姿勢回帰におけるTransformerエンコーダの自己注意機構の学習能力が、クエリとキーの埋め込み空間の歪みによって十分に活用されていない問題に対し、クエリとキーの空間的配置を調整する補助的な損失と適切な位置エンコーディングを用いることで、自己注意機構を活性化し、精度向上を実現できる。
要約
複数シーンにおける絶対姿勢回帰のための自己注意機構の活性化
本論文は、複数シーンの絶対姿勢回帰(MS-APR)タスクにおいて、Transformerエンコーダの自己注意機構の学習能力が十分に活用されていない問題を指摘し、その解決策を提案する。
従来のMS-APR手法では、Transformerエンコーダの自己注意機構が、入力画像の特徴表現の学習に効果的に寄与していないことが確認された。具体的には、自己注意マップが低ランクに崩壊し、クエリとキーの埋め込み空間が歪んでいることが明らかになった。