Durch die Verwendung von menschlich annotierten Salienz-Karten als zusätzliche Eingabe können visuelle Repräsentationen gelernt werden, die robuster und effizienter für die Lösung visueller Steuerungsaufgaben sind.
Einführung eines umfassenden Benchmarks namens NrVLM, der diverse Manipulationstrajektorien mit feingranularen natürlichen Anweisungen kombiniert, um Agenten bei der sequenziellen Ausführung komplexer Aufgaben zu unterstützen. Präsentation eines Frameworks, das es dem Agenten ermöglicht, feingranulare Anweisungen zu befolgen und eine manipulationsbewusste Ausrichtung mehrerer Modalitäten zu erreichen.