Core Concepts
エージェントとLLMの間で知的かつ費用対効果の高い相互作用を実現する方法を提案し、タスク達成時のインタラクションコストを最小限に抑える。
Abstract
大規模言語モデル(LLMs)は膨大なテキストデータセットから獲得した世界知識をエンコードし、エージェントが複雑な連続意思決定タスクを解決する際に高レベルの指示を提供することができる。本論文では、エージェントとLLMの間で賢明かつ費用対効果の高い相互作用を可能にする方法に焦点を当てている。具体的には、Markov decision process(MDP)によって問題を自然に形成し、When2Askという強化学習ベースのアプローチを提案している。このアプローチは、目標タスクを達成するためにLLMsにクエリーする必要性を学習する。
Stats
Experiments on MiniGrid and Habitat environments demonstrate the effectiveness of When2Ask.
Number of interactions with LLM significantly reduced in testing environments compared to baseline methods.
Quotes
"Our approach successfully reduces the number of interactions with the LLM while maintaining task performance across all environments."
"By minimizing unnecessary interactions with the LLM, the agent can achieve more robust performance."