Die Studie befasst sich mit dem Erlernen der 3D-Mensch-Objekt-Interaktionsbeziehung (HOI), einem wichtigen Konzept für verkörperte KI und Interaktionsmodellierung. Die meisten bestehenden Methoden versuchen, isolierte Interaktionselemente wie menschlichen Kontakt, Objektaffordanz und räumliche Beziehung zwischen Mensch und Objekt vorherzusagen, was zu Schwierigkeiten bei der Bewältigung der Unsicherheit in Interaktionen führt.
Um dies zu überwinden, präsentiert die Studie LEMON, ein neuartiges Framework, das die semantischen Interaktionsabsichten und geometrischen Entsprechungen zwischen Mensch und Objekt korreliert, um diese Interaktionselemente gemeinsam in 3D vorherzusagen. LEMON nutzt Multi-Branch-Aufmerksamkeit, um die Korrelation zwischen Interaktionsinhalten in Bildern und Geometrien von Mensch und Objekt zu modellieren, um Absichtsrepräsentationen der Interaktion zu erfassen. Unter Verwendung dieser Absichtsrepräsentationen als Bedingungen integriert LEMON Krümmungen, um die geometrischen Korrelationen zu erfassen und die Kontakt- und Affordanzrepräsentationen zu enthüllen. Schließlich werden diese Repräsentationen genutzt, um die räumliche Beziehung unter Berücksichtigung des Kontakts zu modellieren.
Darüber hinaus wird der 3DIR-Datensatz eingeführt, der natürliche HOI-Bilder mit Objektpunktwolken und SMPL-H-Pseudo-GTs sowie mehrere Annotationen wie dichten menschlichen Kontakt, Objektaffordanz und räumliche Beziehung zwischen Mensch und Objekt enthält. Umfangreiche Experimente zeigen die Überlegenheit von LEMON gegenüber Methoden, die jedes Element isoliert schätzen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yuhang Yang,... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2312.08963.pdfDeeper Inquiries