Wir stellen einen Rahmen für das Online-Lernen aus einem einzigen kontinuierlichen Videostrom vor, der die Art und Weise widerspiegelt, wie Menschen und Tiere lernen, ohne Mini-Batches, Datenerweiterung oder Mischen. Unser Rahmen ermöglicht es uns, einen ersten tiefen Einblick in dieses Thema zu gewinnen und beinhaltet eine Sammlung von Streams und Aufgaben, die aus zwei bestehenden Videodatensätzen zusammengesetzt sind, sowie eine Methodik zur Leistungsbewertung, die sowohl Anpassung als auch Generalisierung berücksichtigt.
Eine neue Methode zur Erkennung und Lokalisierung zeitlicher Handlungen in Videos mit wenigen Beispielen, die mehrere anpassbare Prompts und optimalen Transport nutzt, um die Vielfalt von Kameraeinstellungen, Hintergründen und Objekten in Videos effektiv zu erfassen.