Conceitos essenciais
大規模言語モデルは、テキストベースの迷路環境における地図作成と経路探索の能力が非常に低いことが明らかになった。GPT-4でさえ、経路探索問題の正解率が50%に満たない。
Resumo
本研究では、大規模言語モデルの地図作成と経路探索能力を評価するベンチマーク「MANGO」を提案した。MANGOは、テキストベースの迷路環境53個を含み、各迷路に対して数百の地図作成と経路探索の質問が用意されている。
実験の結果、GPT-4を含む大規模言語モデルは、これらの質問に対して非常に低い正解率を示した。特に、歩行経路に含まれない場所への移動を尋ねる「経路探索」問題では、GPT-4でさえ正解率が50%に満たなかった。一方、人間は完璧に回答できた。
この結果は、大規模言語モデルにはまだ地図作成と経路探索の基本的能力が欠けていることを示している。また、この能力が言語理解に関連する下流タスクの成績にも大きな影響を与えることが分かった。
MANGOベンチマークは、大規模言語モデルの地図作成と経路探索能力の向上を促進する研究を支援することが期待される。
Estatísticas
大規模言語モデルは、経路探索問題の正解率が50%に満たない。
人間は、同じ経路探索問題に完璧に回答できる。