Core Concepts
本研究では、FPGAの配置問題をマルコフ決定過程として定式化し、深層強化学習を用いて配置を最適化する手法を提案する。さらに、大規模な探索空間に対処するため、問題を小さな部分問題に分割する新しい学習パラダイムを提案する。
Abstract
本論文では、FPGAの配置問題に深層強化学習を適用する手法を提案している。
まず、FPGAの配置問題をマルコフ決定過程として定式化し、状態表現、行動、報酬関数を設計している。
次に、プロキシマル・ポリシー最適化(PPO)アルゴリズムを用いて、ニューラルネットワークベースの配置ポリシーを学習する。
しかし、FPGAの配置問題は非常に大規模な探索空間を持つため、強化学習エージェントが効率的に学習することが困難である。
そこで、問題を小さな部分問題に分割する新しい学習パラダイムを提案している。
部分問題ごとに別々のポリシーを学習し、部分問題間で学習結果を共有する手法を検討している。
実験の結果、提案手法は従来手法と比べて良好な配置結果を得られることを示している。
今後の課題として、より複雑な目的関数(遅延時間、混雑度など)への対応や、より大規模な問題への適用などが挙げられる。
Stats
FPGAボードのサイズは11 × 11ユニットで、DSP、CLB、I/O、RAMブロックを含む。
配置対象のブロック数は56 CLBと174 I/Oブロックである。
提案手法の30ブロック配置の平均ワイヤ長は6795±160、最良は6546。
提案手法の56ブロック配置の平均ワイヤ長は7169±90、最良は6950。
Quotes
"FPGAの配置問題は、非常に大規模な探索空間を持つため、強化学習エージェントが効率的に学習することが困難である。"
"問題を小さな部分問題に分割する新しい学習パラダイムを提案している。"