核心概念
大規模なVision Transformers(ViT)を追跡に適用するためのLoRATメソッドの提案と、その効果的な設計に焦点を当てる。
要約
LoRATは、PEFTを活用して大規模なモデルを効率的にトレーニングし、複数のベンチマークで優れたパフォーマンスを達成します。ViTバックボーンへのLoRAの適用やMLP-onlyヘッドネットワークの採用が特徴的です。
統計
ViT-gバックボーンでトラッカーを25.8GB(バッチサイズ16)でトレーニング可能。
L-224バリアントのトレーニング時間が35.0から10.8 GPU時間に短縮。
LaSOT SUCスコアがL-224バリアントで0.703から0.743に向上。
L-224バリアントの推論速度が52から119 FPSに向上。
引用
"PEFT方法は言語モデルやビジョン言語モデルで有効性を示していますが、ビジュアルトラッキングへの適用は未だ未開拓です。"
"LoRAは他のPEFT手法よりも優れたパフォーマンスを示しました。"