Основные понятия
Unser Ansatz ermöglicht eine präzise Manipulation von Objekten in einem Zero-Shot-Szenario, indem er visuelle Diffusions-Deskriptoren nutzt, um die Korrespondenz zwischen Bildteilen in einer Referenzquelle und dem Zielobjekt herzustellen.
Аннотация
Die Arbeit befasst sich mit dem Problem der präzisen Objektmanipulation in Robotikanwendungen, bei der visuelle und geometrische Mehrdeutigkeiten auftreten können. Der vorgestellte Ansatz, genannt "Click to Grasp" (C2G), ermöglicht es, die Manipulation eines bestimmten Objektteils in einer Zielszene durch Verwendung einer Referenzquelle (Quellenbildes) und einer Benutzermarkierung in dieser Quelle durchzuführen.
C2G besteht aus drei Hauptkomponenten:
- Deskriptor-Extraktion aus der Referenzquelle: Unter Verwendung von DINO- und Stable Diffusion-Merkmalen werden die visuellen und semantischen Eigenschaften des markierten Objektteils erfasst.
- Zuordnung des Referenzdeskriptors zur Zielszene: Die extrahierten Deskriptoren werden genutzt, um die entsprechenden Objektteile in der 3D-Szene zu lokalisieren und zu disambiguieren.
- Optimierung der Greiferposen: Basierend auf der identifizierten Interaktionszone wird eine kollisionsfreie Greiferposeoptimierung durchgeführt, um das Objekt präzise zu manipulieren.
Die Experimente zeigen, dass C2G im Vergleich zur Verwendung von DINO- oder Stable Diffusion-Merkmalen allein eine deutlich höhere Genauigkeit bei der Identifizierung und Manipulation der korrekten Objektteile erreicht. Die Methode wurde sowohl in Offline-Experimenten als auch in Realwelt-Szenarien mit einem Roboterarm erfolgreich evaluiert.
Статистика
Die Verwendung von DINO-Merkmalen allein führt in den meisten Fällen zu einer Greiferposenanpassung, die den richtigen Objektteil (z.B. den Arm eines Plüschtieres oder die Öffnung eines Schuhs) erfasst, es gibt jedoch keine klare Präferenz für die korrekte Teilinstanz (links oder rechts).
Die Verwendung von Stable Diffusion-Merkmalen allein führt immer zu einer Pose, bei der der Greifer ungefähr den richtigen Bereich des Objekts erfasst. In vielen Fällen interagiert der Greifer jedoch nicht präzise mit dem gewünschten Objektteil, was besonders bei den Plüschtieren auffällt, wo der Greifer oft an Beinen oder Ohren ansetzt.
Der C2G-Ansatz kann sowohl den korrekten Objektteil als auch die korrekte Teilinstanz zuverlässig identifizieren und erfasst.
Цитаты
"Unser C2G-Ansatz erzielt im Vergleich zur Verwendung von DINO- oder Stable Diffusion-Merkmalen allein eine deutlich höhere Genauigkeit bei der Identifizierung und Manipulation der korrekten Objektteile."
"Die Methode wurde sowohl in Offline-Experimenten als auch in Realwelt-Szenarien mit einem Roboterarm erfolgreich evaluiert."