Core Concepts
大規模言語モデルのヒューリスティックを活用することで、Q学習アルゴリズムのサンプル効率を向上させることができる。
Abstract
本論文では、大規模言語モデル(LLM)のヒューリスティックを活用したQ学習フレームワークを提案している。従来のQ学習では、報酬シェイピングの手法を用いて学習効率を高めてきたが、バイアスの導入や柔軟性の欠如といった課題があった。一方、LLMを単独のエージェントとして用いる手法は、推論速度の遅さやハルシネーションの問題を抱えていた。
本手法では、LLMが生成したヒューリスティックQ値をQ関数に組み込むことで、これらの課題を解決している。理論的な分析では、ヒューリスティックが最適Q関数への収束を促進し、ハルシネーションの影響を探索コストに変換できることを示している。
実験では、8つのGymnasium環境でTD3アルゴリズムにLLMヒューリスティックを組み合わせたTD3を評価した。結果、TD3は従来手法に比べて学習効率が大幅に向上し、複雑な制御タスクにも適用可能であることが確認された。
Stats
最適行動aとMDPから得られた最適行動aπ
D
の差は、ヒューリスティックの精度と最適軌道のサンプリング効率に依存する。
ハルシネーションによる過大評価は、TD更新を通じて過去の状態行動ペアのQ値に影響を与える。
ハルシネーションによる過小評価は、最適行動の過小評価と非最適行動の過小評価に分けられる。前者は性能に影響するが、後者は性能に影響しない。
Quotes
"Q学習は順次的な意思決定タスクにおいて報酬フィードバックから学習するが、大幅な改善には多くのサンプリングを必要とする。"
"大規模言語モデル(LLM)は零shot学習を達成できるが、これは一般的に単純なタスクに限定される。また、推論速度が遅く、時にはハルシネーションを生み出す。"
"提案するLLMガイド型Q学習は、LLMをヒューリスティックとして活用し、強化学習のQ関数の学習を支援する。"