Unser Modell kann aus einem einzigen RGB-Bild einer beliebigen Szene mit unbekannten Umgebungen und Objekten potenzielle Aufgaben identifizieren und deren Ausführung in einer lebendigen Erzählung als Video vorstellen.
Unser Modell kann aus einem einzigen RGB-Bild einer beliebigen Szene mit unbekannten Umgebungen und Objekten potenzielle Aufgaben identifizieren und deren Ausführung in einer lebendigen Erzählung als Video vorstellen.