In dieser Arbeit wird ein System vorgestellt, das auf einem großen Sprachmodell (LLM) basiert, um die Absichten von Menschen während einer Zusammenarbeit mit einem Roboter bei einer Objektkategorisierungsaufgabe vorherzusagen. Das System verwendet einen zweistufigen Ansatz, bestehend aus "Wahrnehmungsreasoning" und "Aufgabenreasoning", um verbale und nonverbale Hinweise des Benutzers, wie Handgesten, Körperhaltung und Gesichtsausdrücke, zu erfassen und mit dem Umgebungszustand zu kombinieren.
Die Evaluation zeigt, dass das LLM-basierte System in der Lage ist, die Absichten des Benutzers genau vorherzusagen, indem es die verschiedenen Hinweise interpretiert und in Kontext setzt. Das System kann so die Zusammenarbeit zwischen Mensch und Roboter bei der Objektkategorisierung intuitiv und natürlich gestalten. Die Ergebnisse demonstrieren das Potenzial von LLMs, um Intentionen in der Mensch-Roboter-Interaktion zu verstehen und zu unterstützen.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Hassan Ali,P... às arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08424.pdfPerguntas Mais Profundas