In dieser Arbeit wird ein System vorgestellt, das auf einem großen Sprachmodell (LLM) basiert, um die Absichten von Menschen während einer Zusammenarbeit mit einem Roboter bei einer Objektkategorisierungsaufgabe vorherzusagen. Das System verwendet einen zweistufigen Ansatz, bestehend aus "Wahrnehmungsreasoning" und "Aufgabenreasoning", um verbale und nonverbale Hinweise des Benutzers, wie Handgesten, Körperhaltung und Gesichtsausdrücke, zu erfassen und mit dem Umgebungszustand zu kombinieren.
Die Evaluation zeigt, dass das LLM-basierte System in der Lage ist, die Absichten des Benutzers genau vorherzusagen, indem es die verschiedenen Hinweise interpretiert und in Kontext setzt. Das System kann so die Zusammenarbeit zwischen Mensch und Roboter bei der Objektkategorisierung intuitiv und natürlich gestalten. Die Ergebnisse demonstrieren das Potenzial von LLMs, um Intentionen in der Mensch-Roboter-Interaktion zu verstehen und zu unterstützen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Hassan Ali,P... alle arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08424.pdfDomande più approfondite