Khái niệm cốt lõi
Transformers learn feature-position correlations in masked image modeling for self-supervised vision pretraining.
Tóm tắt
自己監督学習のためのマスク画像モデリングにおいて、トランスフォーマーは特徴位置の相関を学習します。この研究では、トランスフォーマーがどのようにMIMでFP相関を学習し、グローバルな収束と注意パターンを達成するかが初めて提供されました。論文は、異なるクラスタ内での局所的な特徴位置相関の学習プロセスを詳細に説明し、グローバルと局所的なエリアでの注意パターンの進化を追跡しています。さらに、新しい注意多様性メトリックが導入されており、これは異なるパッチが類似した領域に集中しているかどうかを直接評価します。
Thống kê
Φp→vk,m はΘ(log(P))まで増加します。
Attn(t)p→Pk,ak,p はO(ϵ)まで低下します。
Υ(t)k,p→q はほぼゼロです。