本文提出了一個新的框架FISER(Follow Instructions with Social and Embodied Reasoning),旨在通過兩個階段的推理來更好地遵循自然語言指令:
社會推理階段:
身體推理階段:
作者在HandMeThat基準測試中評估了FISER框架,並與最先進的基線模型進行了比較。結果表明,FISER模型在各個難度級別上都優於端到端的方法和使用大型預訓練語言模型的方法,達到了新的最佳水平。
作者的分析表明,顯式地建模人類意圖作為中間推理步驟是關鍵,因為現有的方法無法解決自然語言指令中的歧義性。相比之下,FISER框架通過社會推理和身體推理的分離,能夠更好地解決這一問題。
翻譯成其他語言
從原文內容
arxiv.org
深入探究