無線ネットワークの効率的な最適化のためには、新しい無線ネットワークサイトに対するパラメータ最適化ポリシーの迅速な展開が重要である。本研究では、重複するアクション空間を持つ一連のマルコフ決定過程としてこの問題を定式化し、継続的強化学習を用いることで、データ効率的な方法でこの問題に取り組む。