Die Kernaussage dieses Artikels ist, dass die Autoren eine neue Methode zur testzeit-Modell-Anpassung (Test-Time Adaptation, TTA) entwickelt haben, die ohne Rückwärtspropagation und Änderung der Modellgewichte auskommt.
Die Autoren identifizieren zunächst die Herausforderungen bestehender TTA-Methoden, die auf Rückwärtspropagation angewiesen sind. Dies macht sie ungeeignet für den Einsatz auf ressourcenbeschränkten Geräten wie Smartphones oder FPGA-Chips, die keine Rückwärtspropagation unterstützen. Außerdem können quantisierte Modelle die erforderlichen Gradienten nicht berechnen.
Um diese Probleme zu lösen, schlagen die Autoren eine "Forward-Only Adaptation" (FOA) Methode vor. Dabei fügen sie einen neuen Prompt als Modelleingang hinzu und passen diesen Prompt mithilfe einer ableitungsfreien Optimierungsmethode (Covariance Matrix Adaptation) an. Zusätzlich entwickeln sie eine neuartige Fitnessfunktion, die sowohl die Vorhersageentropie als auch die Diskrepanz der Aktivierungsstatistiken zwischen Trainings- und Testdaten berücksichtigt.
Um die Anpassungsleistung weiter zu verbessern, führen die Autoren außerdem eine "Back-to-Source Activation Shifting"-Strategie ein. Dabei werden die Aktivierungen der Testdaten direkt an die Statistiken der Trainingsdaten angepasst.
Die Experimente zeigen, dass FOA die Leistung auf verschiedenen Benchmarks deutlich verbessert, insbesondere für quantisierte Modelle, bei denen herkömmliche TTA-Methoden nicht einsetzbar sind. FOA auf einem 8-Bit ViT-Modell übertrifft sogar die Leistung der gradientenbasierten TENT-Methode auf einem 32-Bit ViT-Modell, bei gleichzeitig deutlich geringerem Speicherverbrauch.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések