In dieser Arbeit wird ein System vorgestellt, das auf einem großen Sprachmodell (LLM) basiert, um die Absichten von Menschen während einer Zusammenarbeit mit einem Roboter bei einer Objektkategorisierungsaufgabe vorherzusagen. Das System verwendet einen zweistufigen Ansatz, bestehend aus "Wahrnehmungsreasoning" und "Aufgabenreasoning", um verbale und nonverbale Hinweise des Benutzers, wie Handgesten, Körperhaltung und Gesichtsausdrücke, zu erfassen und mit dem Umgebungszustand zu kombinieren.
Die Evaluation zeigt, dass das LLM-basierte System in der Lage ist, die Absichten des Benutzers genau vorherzusagen, indem es die verschiedenen Hinweise interpretiert und in Kontext setzt. Das System kann so die Zusammenarbeit zwischen Mensch und Roboter bei der Objektkategorisierung intuitiv und natürlich gestalten. Die Ergebnisse demonstrieren das Potenzial von LLMs, um Intentionen in der Mensch-Roboter-Interaktion zu verstehen und zu unterstützen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문