エッジコンピューティングインフラストラクチャでは、限られた高度に異質なリソースの下で性能を最大化するための新世代の受け入れ制御アルゴリズムが必要とされている。本論文では、制約付きマルコフ決定過程理論に基づいて最適な受け入れ制御ポリシーを導出し、安全な強化学習手法であるDR-CPOを提案する。DR-CPOは報酬の分解を利用して最適な分散制御を実現し、状態空間の爆発を効果的に軽減しつつ最適性を保持する。