Dynamische neuronale Szenenrepräsentationen für Echtzeitvideo-Analysen
Das DyST-Modell lernt eine latente Zerlegung von Monovideos in Szeneninhalte, kameraabhängige Szenenynamik und Kameraposition, was eine unabhängige Kontrolle dieser Faktoren ermöglicht.