本研究では、AdaRefinerと呼ばれる新しいフレームワークを提案している。AdaRefinerは、大規模言語モデル(LLM)と強化学習(RL)エージェントの相互作用を通じて、LLMの理解を自動的に洗練し、エージェントの意思決定能力を向上させる。
AdaRefinerの中核となるのは、軽量のアダプター言語モデル(Adapter LM)である。このAdapter LMは、RLエージェントからのフィードバックに基づいて、タスクの理解を自動的に洗練する。これにより、複雑な意思決定タスクにおいて、LLMの一般化能力を維持しつつ、決定能力を向上させることができる。
実験では、22種類のタスクを含むCrafterゲーム環境でAdaRefinerを評価した。その結果、AdaRefinerは既存手法を大きく上回る性能を示し、特に高度なスキルと常識的な行動を学習するエージェントの能力を引き出すことができることが示された。このAdaRefinerのアプローチは、LLMの自己洗練を可能にし、複雑な意思決定問題に対するより適応性の高いソリューションを提供する。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問