Der Artikel führt einen Rahmen für das kontinuierliche Lernen aus einem einzelnen Videostrom ein, der dem menschlichen und tierischen Lernprozess ähnelt. Im Gegensatz zu herkömmlichen Ansätzen, die auf unabhängigen und identisch verteilten (IID) Daten trainieren, lernen die Modelle hier aus einem kontinuierlichen Datenstrom ohne Mini-Batches, Datenerweiterung oder Mischen.
Der Rahmen umfasst zwei Videoströme, Ego4D-stream und ScanNet-stream, die aus bestehenden Datensätzen zusammengesetzt wurden. Es werden verschiedene Vorhersageaufgaben wie Pixelvorhersage, Segmentierung und Tiefenvorhersage definiert, die alle in den RGB-Raum abgebildet werden, um ein einheitliches Pixel-zu-Pixel-Modell und eine einfache L2-Verlustfunktion zu ermöglichen.
Die Leistung wird sowohl innerhalb des Datenstroms (In-Stream) als auch auf einem unabhängigen Validierungsstrom (Out-of-Stream) gemessen, um Anpassung und Generalisierung zu erfassen. Die Autoren identifizieren mehrere wichtige Erkenntnisse:
Momentum, das in gängigen Optimierern wie Adam verwendet wird, ist in hochkorrelierenden Videoströmen schädlich. Stattdessen sind Methoden ohne Momentum wie RMSProp robuster.
Es gibt einen Zielkonflikt zwischen Anpassung und Generalisierung, der durch die Häufigkeit der Gewichtsaktualisierungen beeinflusst wird - seltene Aktualisierungen führen zu besserer Generalisierung.
Vorhersage zukünftiger Frames als Vortrainingsaufgabe führt zu deutlich besserer Leistung als die übliche ImageNet-Vortrainung.
Durch Kombination dieser Erkenntnisse erreichen die Autoren eine Leistung, die der von IID-Lernen mit Batch-Größe 1 entspricht, ohne kostspielige Replay-Puffer zu verwenden.
To Another Language
from source content
arxiv.org
Deeper Inquiries