Keskeiset käsitteet
ロボティックテザーネットシステムの学習支援制御は、大型宇宙デブリの効果的な捕獲を可能にする。
Tiivistelmä
ロボティックテザーネットシステムは、大型宇宙デブリの活発な除去に有望な解決策を提供する。
Reinforcement Learning(ポリシーグラディエント)を使用して、中央化された軌道プランナーを設計し、MUsの最終目標位置を計算する。
シミュレーションベースの実験では、このアプローチが成功裏にデブリを捕獲し、燃料コストが基準値よりも著しく低いことが示されている。
4および8つの機動可能ユニット(MUs)を備えた2つの異なるテザーネットシステムへのアプローチ効果を評価している。
テザーネットシステム設計と制御(Sec. II)
PIDコントローラーは、各MUが所望の位置に到達するために必要な推力を計算する。
燃料消費量は、PIDコントローラーが各MUに達成させる目標位置まで必要とする推力から導かれる。
学習タスクの定式化(Sec. III)
RLフレームワークはProximal Policy Optimization(PPO)アルゴリズムを使用してトレーニングされており、報酬関数は多くの要因を考慮している。
RLポリシーは100%のキャプチャ成功率と低い総合燃料消費量で訓練されており、未見のテストシナリオでも確認されている。
シミュレーション結果と分析(Sec. IV)
RLトレーニング後、4-MUおよび8-MUデザインで報酬が収束し、RLポリシーによって提供された明らかな利点が示されている。
RLポリシーによって平均的に11%(4-MU)および1.8%(8-MU)の燃料消費削減が達成されている。
Tilastot
各MUが所望位置まで到達するために必要な推力を計算します。
PIDコントローラーは各MUごとに制御力を計算します。