beaconは、流れ制御問題に特化した7つの軽量な1次元および2次元の環境を提供する。これらの環境は、アクションとオブザベーション空間の特性、CPU要件が異なる。
各環境の物理モデル、離散化手法、環境パラメータ、ベースラインの学習曲線が説明されている。これにより、深層強化学習アルゴリズムの性能を系統的に評価し、比較することができる。
beaconは、流れ制御問題に取り組むための共通基盤を提供し、アルゴリズムの再現性と適切なベンチマーキングを可能にする。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jonathan Viq... at arxiv.org 04-19-2024
https://arxiv.org/pdf/2402.17402.pdfDeeper Inquiries