Core Concepts
Große Sprachmodelle können die Absichten von Menschen während einer Zusammenarbeit mit einem Roboter bei einer Objektkategorisierungsaufgabe vorhersagen, indem sie verbale und nonverbale Hinweise kombinieren.
Abstract
In dieser Arbeit wird ein System vorgestellt, das auf einem großen Sprachmodell (LLM) basiert, um die Absichten von Menschen während einer Zusammenarbeit mit einem Roboter bei einer Objektkategorisierungsaufgabe vorherzusagen. Das System verwendet einen zweistufigen Ansatz, bestehend aus "Wahrnehmungsreasoning" und "Aufgabenreasoning", um verbale und nonverbale Hinweise des Benutzers, wie Handgesten, Körperhaltung und Gesichtsausdrücke, zu erfassen und mit dem Umgebungszustand zu kombinieren.
Die Evaluation zeigt, dass das LLM-basierte System in der Lage ist, die Absichten des Benutzers genau vorherzusagen, indem es die verschiedenen Hinweise interpretiert und in Kontext setzt. Das System kann so die Zusammenarbeit zwischen Mensch und Roboter bei der Objektkategorisierung intuitiv und natürlich gestalten. Die Ergebnisse demonstrieren das Potenzial von LLMs, um Intentionen in der Mensch-Roboter-Interaktion zu verstehen und zu unterstützen.
Stats
"Der Benutzer deutet mit der rechten Hand auf den Apfel."
"Der Benutzer steht vor mir."
"Der Benutzer lächelt gerade."
Quotes
"Intentionsbasierte Mensch-Roboter-Interaktionssysteme ermöglichen es Robotern, Benutzeraktionen wahrzunehmen und zu interpretieren, um proaktiv mit Menschen zu interagieren und sich an ihr Verhalten anzupassen."
"Große Sprachmodelle haben vielversprechende Fähigkeiten in Bezug auf kontextbezogenes Verständnis gezeigt und besitzen das Potenzial, Intentionsvorhersage in der Mensch-Roboter-Interaktion voranzubringen."