Centrala begrepp
Ein neuartiges diffusionsbasiertes Verfahren, das realistische und kontrollierbare Handlungen mit Objekten aus natürlicher Sprache synthetisiert, die auf ungesehene Objekte generalisieren und eine detaillierte Kontrolle der Bewegung ermöglichen.
Sammanfattning
Die Autoren stellen DiffH2O vor, eine neuartige Methode zur Synthese realistischer, ein- oder zweihändiger Objektinteraktionen aus vorgegebenen Textaufforderungen und der Geometrie des Objekts. Die Methode führt drei Techniken ein, die ein effektives Lernen aus begrenzten Daten ermöglichen:
Zerlegung der Aufgabe in eine Greifphase und eine textbasierte Interaktionsphase und Verwendung separater Diffusionsmodelle für jede Phase. In der Greifphase generiert das Modell nur Handbewegungen, während in der Interaktionsphase sowohl Hand- als auch Objektposen synthetisiert werden.
Vorschlag einer kompakten Darstellung, die Handposen und Objektposen eng miteinander koppelt.
Vorschlag von zwei verschiedenen Führungsschemata, um mehr Kontrolle über die generierten Bewegungen zu ermöglichen: Greifführung und detaillierte Textführung. Die Greifführung nimmt eine einzelne Zielgreifpose und leitet das Diffusionsmodell dazu an, diese Greifpose am Ende der Greifphase zu erreichen, was die Kontrolle über die Greifpose ermöglicht. Ausgehend von einer Greifbewegung aus dieser Phase können in der Interaktionsphase mehrere verschiedene Aktionen aufgefordert werden. Die detaillierten Textbeschreibungen ermöglichen es dem Modell, die Handlungen mit Objekten feingranularer zu kontrollieren.
Die quantitative und qualitative Auswertung zeigt, dass die vorgeschlagene Methode Baseline-Methoden übertrifft und zu natürlichen Handlungen mit Objekten führt. Darüber hinaus wird die Praxistauglichkeit des Frameworks demonstriert, indem eine Handposenschätzung aus einem Standardposeabschätzer für die Führung verwendet und anschließend in der Interaktionsphase mehrere verschiedene Aktionen abgetastet werden.
Statistik
Die Bewegungen müssen in mehrfacher Hinsicht plausibel sein: geometrisch, semantisch und zeitlich.
Bestehende Datensätze für Handlungen mit Objekten sind etwa 10-mal kleiner als Datensätze für Menschenbewegungen und 1000-mal kleiner als Bilddatensätze.
Citat
"Grab the apple with the right hand and eat it."
"Pick up the apple with the right hand and pass it to the left hand."
"Pick up the wineglass with the left hand and drink from it."
"Take the wineglass with the left hand, pass it to the right hand and drink from it."