Realistische und kontrollierbare Synthese von Handlungen mit Objekten aus Textbeschreibungen
Ein neuartiges diffusionsbasiertes Verfahren, das realistische und kontrollierbare Handlungen mit Objekten aus natürlicher Sprache synthetisiert, die auf ungesehene Objekte generalisieren und eine detaillierte Kontrolle der Bewegung ermöglichen.