Core Concepts
Durch das Lernen von semantischen Proxies aus visuellen Prompts in vortrainierten Vision Transformern können Tiefenmetrik-Lernmodelle effizient und effektiv auf lokale Datensätze finetuned werden, ohne die zuvor erworbenen Kenntnisse zu verlieren.
Abstract
Der Artikel untersucht parametereffiziente Methoden zum Finetuning von vortrainierten Vision Transformers (ViT) für Tiefenmetrik-Lernaufgaben (DML). Der Hauptbeitrag ist ein neuer Ansatz, der auf dem Konzept der visuellen Prompts (VPT) basiert.
Anstatt die Proxies, die als Repräsentationen der Bildklassen dienen, zufällig zu initialisieren, lernt der Ansatz semantische Proxies, indem er zusätzliche lernbare Prompts pro Klasse in den ViT integriert. Diese Prompts ermöglichen es, die Proxies mit semantischen Informationen aus den Eingabebildern und dem ViT-Modell anzureichern.
Darüber hinaus wird ein neuartiger Mechanismus vorgestellt, um die semantischen Proxies über mehrere Trainingsiterationen hinweg effizient zu akkumulieren, entweder durch einen exponentiell gewichteten Durchschnitt (EMA) oder eine gated recurrent unit (GRU).
Die umfangreichen Experimente auf gängigen DML-Benchmarks zeigen, dass der vorgeschlagene Ansatz die Leistung im Vergleich zu vollständigem Finetuning bei gleichzeitiger Reduzierung der Trainingsparameter deutlich verbessert. Er erreicht sogar vergleichbare oder bessere Ergebnisse als der aktuelle Stand der Technik bei DML-Aufgaben.
Stats
Die Anzahl der trainierbaren Parameter in unserem Ansatz beträgt nur 5,2% der Gesamtparameter des ViT-Modells.
Unser Ansatz benötigt deutlich weniger Grafikspeicher als das vollständige Finetuning, nur 43,3% im Vergleich.
Quotes
"Durch das Lernen von semantischen Proxies aus visuellen Prompts in vortrainierten Vision Transformern können Tiefenmetrik-Lernmodelle effizient und effektiv auf lokale Datensätze finetuned werden, ohne die zuvor erworbenen Kenntnisse zu verlieren."
"Die umfangreichen Experimente auf gängigen DML-Benchmarks zeigen, dass der vorgeschlagene Ansatz die Leistung im Vergleich zu vollständigem Finetuning bei gleichzeitiger Reduzierung der Trainingsparameter deutlich verbessert."