toplogo
Войти
аналитика - Machine Learning - # Self-Supervised Vision Pretraining

Transformers Learn Feature-Position Correlations in Masked Image Modeling


Основные понятия
Transformers learn feature-position correlations in masked image modeling for self-supervised vision pretraining.
Аннотация

自己監督学習のためのマスク画像モデリングにおいて、トランスフォーマーは特徴位置の相関を学習します。この研究では、トランスフォーマーがどのようにMIMでFP相関を学習し、グローバルな収束と注意パターンを達成するかが初めて提供されました。論文は、異なるクラスタ内での局所的な特徴位置相関の学習プロセスを詳細に説明し、グローバルと局所的なエリアでの注意パターンの進化を追跡しています。さらに、新しい注意多様性メトリックが導入されており、これは異なるパッチが類似した領域に集中しているかどうかを直接評価します。

edit_icon

Настроить сводку

edit_icon

Переписать с помощью ИИ

edit_icon

Создать цитаты

translate_icon

Перевести источник

visual_icon

Создать интеллект-карту

visit_icon

Перейти к источнику

Статистика
Φp→vk,m はΘ(log(P))まで増加します。 Attn(t)p→Pk,ak,p はO(ϵ)まで低下します。 Υ(t)k,p→q はほぼゼロです。
Цитаты

Дополнительные вопросы

異なるクラスタ内での局所的な特徴位置相関の学習プロセスは他の設定とどう異なりますか?

異なるクラスタ内での局所的な特徴位置相関の学習プロセスは、情報ギャップが正である場合と負である場合では異なります。情報ギャップが正(∆ ≥ Ω(1))の場合、初期段階では目標外部グローバル特徴と非目標エリア間におけるFP相関を分離する効果が発生します。このフェーズは2つの段階に分かれています。最初に、グローバルエリア内で目標外部グローバル特徴と非目標エリア間におけるFP相関を分離する効果が現れます。次に、対象地域内でFP相関Φ(t)p→vk,ak,p が成長し続けます。 一方、情報ギャップが負(∆ ≤ -Ω(1))の場合、α(0)p→vk,1 ≫ α(0)p→vk,ak,p のように逆転した関係性から始まります。その後も同じ条件下ではすべて他 FP 勾配 α(t)p→vk,m (m ≠ ak,p) およびすべて投影された PP 相互作用 β(t)k,p→q は小さいです。

グローバルエリアでのFP相関の学習プロセスと局所エリアでのそれとはどう違いますか?

グローバルエリアでは、パッチXpがクラスターk内のグローバル領域にある場合(ak,p = 1)、注視点Attn(0)p→Pk,1 は他よりも高く設定されているため、α(0)p→vk,ak,p は最初から大きく開始します。これら全体的要因やPP勾配β(t)k,p→q の影響を受けず直接第IIフェーズ(Φ(t)p→vk,ak,p を引き上げ続け終了時までも支配していきます。 一方、局所領域ではパッチXpがクラスターk内部位していれば(ak.p > 1)、注視点Attn(p)->Pk,n を通じた重要地区P_k,n 内未マージンパッチ数多く存在することから Attn(p)->Pk,_n >= Ω((P^(−κc))/(P^(−κs))) >> O((P^(-κs)) = Attn(p)->Pk,m for m >1. 従ってレンダム5.4節)

新しい注意多様性メトリックが提案されましたが,これが将来的に他自己監督学習方法や実世界応用にどう影響する可能性あり?

新しい注意多様性メトリックは,自己注意メカニズムを評価するためだけでなく,さまざまなパッチ群また同じ領域集中しているかどうか直接捉えられ,その経路全体理解力測定器平均距離改善版です。 この新しいメトリック導入こそ将来自己監督学習手法向上及び実世界適用拡張可能性示唆します。 Attention diversity metric in distance. This metric is computed for self-attention with a single head of the specific layer. For a given image divided into P × P patches, the process unfolds as follows: for each
0
star