本文探討了使用大型語言模型(LLM)作為人機互動(HRI)中的人類模型的可行性。作者首先在三個社交數據集上評估了LLM的性能,發現LLM在零樣本情況下可以達到與專門設計的模型相當的預測性能。然而,進一步分析也發現LLM在需要空間/物理/數字推理的HRI任務上表現較差,並且對提示的結構敏感。
基於這些發現,作者展示了如何將基於LLM的人類模型集成到機器人的規劃過程中,並應用於兩個關注信任的HRI場景。在模擬的桌面清理任務中,使用LLM模型的規劃器可以達到與專門設計的模型相當的性能。在一個新的餐具傳遞實驗中,初步結果表明,使用LLM模型的規劃器可以優於簡單的貪婪規劃。
總的來說,這項研究表明LLM提供了一種有前景但不完整的人類建模方法。LLM可以有效地捕捉任務級別的人類行為,但在涉及空間和物理推理的情況下仍有局限性。未來的工作可能需要將LLM與其他"低層"模型相結合,以更好地捕捉人類行為的各個方面。
翻譯成其他語言
從原文內容
arxiv.org
深入探究