核心概念
RIBBOは、オフラインデータを用いた強化学習により、ユーザーが指定した性能を満たすブラックボックス最適化アルゴリズムを自動的に生成する手法である。
書誌情報
Lei Song, Chen-Xiao Gao, Ke Xue, Chenyang Wu, Dong Li, Jianye Hao, Zongzhang Zhang, Chao Qian. (2024). Reinforced In-Context Black-Box Optimization. arXiv preprint arXiv:2402.17423v3.
研究目的
本研究は、専門知識を必要とせず、広範囲のブラックボックス最適化(BBO)問題に対して柔軟に対応できる、オフラインデータからエンドツーエンドで学習可能な強化学習ベースのBBOアルゴリズムの開発を目的とする。
手法
本研究では、RIBBO (Reinforced In-context BBO) と呼ばれる新しい手法を提案する。RIBBOは、複数の既存BBOアルゴリズムによって生成されたオフラインデータセットから最適化履歴を学習するために、表現力の高いシーケンスモデル(因果Transformer)を採用している。学習データには、過去のクエリポイントとその関数値に加えて、Regret-To-Go (RTG) トークンを導入する。RTGトークンは、将来の最適化履歴における累積的なリグレットを表し、アルゴリズムの将来の性能を表現する。これにより、RIBBOは異なるアルゴリズムを自動的に識別し、指定されたリグレットを満たすクエリポイントのシーケンスを生成することができる。さらに、Hindsight Regret Relabelling (HRR) 戦略を提案し、テスト時にRTGトークンを更新することで、RIBBOが最適な性能を発揮できるようにする。
主要な結果
BBOBベンチマーク関数、ハイパーパラメータ最適化、ロボット制御問題を含む多様な問題において、RIBBOはユーザーが指定したリグレットを満たすクエリポイントのシーケンスを自動的に生成し、普遍的に優れた経験的性能を達成することを示した。また、RIBBOは既存のE2E手法と比較して、ユーザーが使用するアルゴリズムを事前に指定したり、テスト時にプレフィックスシーケンスを提供したりする必要がないという利点がある。
結論
RIBBOは、オフラインデータから強化学習によってBBOアルゴリズムを学習するための効果的な手法である。RTGトークンを最適化履歴に組み込むことで、RIBBOはユーザーが指定したリグレットを満たす最適化軌跡を自動的に生成することができる。今後の研究として、異なるタイプの変数を持つ異種検索空間への拡張や、RTGトークンに基づくインコンテキスト学習能力の数学的理論解析などが挙げられる。
統計
本論文では、BBOBベンチマーク関数、ハイパーパラメータ最適化、ロボット制御問題を含む多様な問題において実験を行った。
実験には、ランダムサーチ、シャッフルグリッドサーチ、ヒル・クライミング、Regularized Evolution、Eagle Strategy、CMA-ES、GP-EIの7つの代表的なBBOアルゴリズムを使用した。
各アルゴリズムは、異なるランダムシードを用いて、各タスクを最適化することでデータセットを生成した。
RIBBOは、SVM問題を除くすべての実験において、最高の性能を発揮する既存のBBOアルゴリズムと同等以上の性能を達成した。