Core Concepts
動的トークン形態変化(DTM)は、コンテキストに基づいてトークンを動的に集約することで、マスクド画像モデリングの性能を大幅に向上させる。
Abstract
本研究では、マスクド画像モデリング(MIM)における新しい自己教師あり学習手法である動的トークン形態変化(DTM)を提案している。MIMの本質は、画像をパッチに分割し、一部のパッチをマスクした上で、それらの予測を行うことにある。従来のMIM手法では、事前学習済みのモデルや言語-画像モデルを活用してターゲットトークンを生成していたが、それらのトークン表現には空間的な不整合性が見られ、表現学習の質を低下させていた。
本研究の主な貢献は以下の通り:
事前学習モデルから生成されるトークン表現の空間的不整合性を分析し、その問題点を明らかにした。
動的トークン形態変化(DTM)を提案し、コンテキストを考慮してトークンを動的に集約することで、MIMの性能を大幅に向上させた。
DTMは様々なMIM手法に適用可能であり、ViT-S/16からViT-L/16までの異なるサイズのバックボーンでも一貫して高い性能を発揮することを示した。
ImageNet-1KやADE20Kなどのベンチマークタスクで、提案手法が最先端の手法を上回る性能を達成することを実証した。さらに、iNaturalistやFGVCデータセットでも優れた汎化性能を示した。
Stats
マスクド画像モデリングにおいて、事前学習モデルから生成されるトークン表現には空間的な不整合性が見られ、これが表現学習の質を低下させている。
トークン集約手法を用いることで、この空間的不整合性を緩和し、精度を向上させることができる。
提案手法のDTMは、コンテキストを考慮してトークンを動的に集約することで、MIMの性能を大幅に向上させることができる。
Quotes
"事前学習モデルから生成されるトークン表現には空間的な不整合性が見られ、これが表現学習の質を低下させている。"
"DTMは、コンテキストを考慮してトークンを動的に集約することで、MIMの性能を大幅に向上させることができる。"