Core Concepts
LLMを使ってマルコフ決定過程ベースの強化学習問題を解き、研究者のワークフローを最適化する。
Abstract
本研究では、大規模言語モデル(LLM)を使って、マルコフ決定過程(MDP)ベースの強化学習(RL)問題を解くアプローチを提案しています。
まず、RL問題の要件をLLMに伝えるための反復プロンプティング戦略を導入しました。具体的には、状態、行動、報酬などのMDP要素をプロンプトに含めます。LLMはこれらの情報を使って、RL問題を解き、最適な政策を見つけます。
さらに、エピソード生成とシミュレーションをプロンプティングチェーンに統合し、LLMベースの政策学習を可能にしました。これにより、LLMから最適なエピソードを引き出すことができます。
2つの詳細なケーススタディ(研究者のワークフロー、法務案件の受付ワークフロー)を通して、提案アプローチの有効性を示しました。LLMは反復プロンプティングを通して、RL問題の要件を満たす最適な政策を見つけることができました。
Stats
研究者ワークフローの最適なエピソードの報酬は-4.7です。
法務案件受付ワークフローの最適なエピソードの報酬は-5.2です。