本論文は、画像の冗長性を削減する新しい自己教師あり学習手法を提案している。
まず、事前学習済みのマスクオートエンコーダを用いて、各可視パッチの重要度を推定する。具体的には、パッチを1つずつ除去した際の再構成画像の変化を定量化することで、各パッチの「意味的密度スコア」を算出する。
次に、この意味的密度スコアを擬似ラベルとして、ランキングモデルを学習する。これにより、パッチの重要度を順位付けできるようになる。
最後に、学習したランキングモデルを用いて、上位のパッチを選択することで、画像の冗長性を削減する。
この一連の処理は自己教師あり的に行われるため、カテゴリバイアスの問題を回避できる。
実験の結果、提案手法は教師あり手法と比べても遜色ない性能を示し、特に未学習カテゴリに対して優れた結果を得ている。また、効率的なビジョントランスフォーマーの実現にも貢献できることが示された。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Yang Luo,Zhi... о arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00680.pdfГлибші Запити