本論文は、人間と協働するロボットが自然言語命令に従うタスクを解決するための新しいフレームワーク「FISER」を提案している。従来の手法は、人間の命令を直接行動に変換しようとしていたが、人間の命令には暗黙の前提知識が含まれており、これを解決するのが困難であった。
FISERでは、人間の意図を明示的に推測する「社会的推論」と、その推測に基づいて具体的な行動を決める「身体的推論」の2段階のアプローチを取る。社会的推論では、人間の過去の行動から、人間の全体的な目標と、ロボットに協力を求めている具体的な部分目標を推測する。その後、身体的推論では、推測した部分目標に基づいて、ロボットが取るべき具体的な行動を決定する。
さらに、人間の全体的な目標を先に推測する段階を追加することで、より複雑な状況でも人間の意図を正確に捉えられるようにしている。
実験の結果、FISERを用いたモデルは、従来の手法や大規模言語モデルを用いた手法に比べて、曖昧な自然言語命令に従うタスクの遂行率が大幅に向上することが示された。これは、人間の意図を明示的にモデル化することの有効性を示すものである。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yanming Wan,... alle arxiv.org 09-27-2024
https://arxiv.org/pdf/2409.18073.pdfDomande più approfondite