核心概念
beaconは、流れ制御問題に対する深層強化学習アルゴリズムの評価と比較を可能にする、オープンソースのベンチマークライブラリである。
要約
beaconは、流れ制御問題に特化した7つの軽量な1次元および2次元の環境を提供する。これらの環境は、アクションとオブザベーション空間の特性、CPU要件が異なる。
各環境の物理モデル、離散化手法、環境パラメータ、ベースラインの学習曲線が説明されている。これにより、深層強化学習アルゴリズムの性能を系統的に評価し、比較することができる。
beaconは、流れ制御問題に取り組むための共通基盤を提供し、アルゴリズムの再現性と適切なベンチマーキングを可能にする。
統計
流れ制御問題は、少なくとも2次元にわたる物理環境で定義される。
制御は、境界条件、ソース項、その他のドメイン要素を変更することで行われる。
環境設計と物理モデルの選択は、ロバストで効率的な環境を構築する上で重要である。
計算コストを最小限に抑えるため、Navier-Stokes方程式を簡略化したモデルを使用する。
引用
"流れ制御問題は、シミュレーションされた物理環境にわたって定義され、エージェントがドメインの境界条件やソース項を変更することで制御を行う。"
"計算コストを最小限に抑えるため、Navier-Stokes方程式を簡略化したモデルを使用する。"
"beaconは、流れ制御問題に特化した共通基盤を提供し、アルゴリズムの再現性と適切なベンチマーキングを可能にする。"