核心概念
大規模言語モデルを活用して、カスタム環境における多目的強化学習課題の報酬関数を効率的に設計・最適化する手法を提案する。
要約
本研究では、ERFSL (Efficient Reward Function Searcher using LLMs)と呼ばれる手法を提案している。ERFSLでは、以下のような特徴がある:
- 課題の要件を数値的に明確に定義し、各要件に対応した報酬コンポーネントを大規模言語モデル (LLM) で生成する。
- 報酬クリティックを用いて報酬コンポーネントのコードを修正し、各要件を満たすようにする。
- 報酬重み付け初期化器を使って、報酬コンポーネントの値のバランスを取る初期重み付けを行う。
- 報酬重み探索器では、訓練ログ分析器が提供する文脈情報に基づき、遺伝的アルゴリズムのような方向性のある変異と交叉を行う。
これにより、LLMを白箱型の報酬関数探索器として活用し、カスタム環境における複雑な多目的強化学習課題に対して、効率的に報酬関数を設計・最適化できる。
実験では、水中データ収集タスクに適用し、ゼロショット学習の設定でも、安全性と性能の要件を満たす報酬関数を得られることを示した。また、重み探索においても、初期重み値が大きく外れていても、平均5.2回の反復で要件を満たすことができた。
統計
衝突回避ペナルティ: w_collision * (dist - self.safe_dist / np.linalg.norm(self.border))
エネルギー消費ペナルティ: w_energy * 200
平均データオーバーフロー時間: [0.52, 0.28, ..., 2.1]
平均データオーバーフロー数: [7.074, 7.095, ..., 6.668]
引用
"LLMsを白箱型の報酬関数探索器として活用し、カスタム環境における複雑な多目的強化学習課題に対して、効率的に報酬関数を設計・最適化できる。"
"初期重み値が大きく外れていても、平均5.2回の反復で要件を満たすことができた。"