核心概念
言語モデルを使って、自律的に宇宙船を操縦し、非協力的な宇宙ミッションを遂行することができる。
要約
本論文では、大規模言語モデル(LLM)を使って、自律的に宇宙船を操縦する手法を提案している。具体的には以下の通り:
-
プロンプトエンジニアリングとオブザベーション拡張:
- LLMのパフォーマンスを最適化するため、プロンプトの文言や構造を調整した。
- 観測値に追加の情報(相対位置、相対速度など)を付加することで、LLMの数値計算能力を補強した。
-
フューショットプロンプティング:
- LLMが最初の応答で適切な関数呼び出しを行えるよう、手動で最初の応答を書いて履歴に追加した。
- 応答の連続性を高めるため、状況に応じて手動で追加の応答を書いた。
-
ファインチューニング:
- 人間のゲームプレイデータを使ってLLMをファインチューニングし、応答の速度と精度を向上させた。
- ハイパーパラメータの調整や、システムプロンプトの追加などの工夫により、ファインチューニングの効果を高めた。
これらの手法を組み合わせることで、LLMベースのエージェントは、Kerbal Space Program Differential Gamesチャレンジで2位に入賞するなど、優れた性能を発揮した。LLMは、従来のRLアプローチでは困難だった宇宙分野のタスクに適用可能であることが示された。
今後の展望として、より高性能なLLMの活用、マルチモーダルモデルの導入、LLMによるコード生成など、LLMの宇宙分野への応用可能性をさらに探っていくことが期待される。
統計
追跡機の位置(x,y,z): (750044.3, -18124.4, 1.0) [m]
回避機の位置(x,y,z): (749797.9, -17108.9, -0.0) [m]
相対位置(追跡機位置 - 回避機位置): (246.4, -1015.5, 1.0) [m]
距離: 1044.9 [m]
相対速度(追跡機速度 - 回避機速度): (-0.41, 27.55, 0.02) [m/s]
最接近時の追跡機位置(x,y,z): (747565.2, 63112.5, 2.0) [m]
最接近時の回避機位置(x,y,z): (747331.4, 63104.8, 0.1) [m]
最接近時の相対位置: (233.8, 7.7, 1.8) [m]
最接近時の距離: 234.0 [m]
最接近時の相対速度: (-0.27, 27.71, 0.02) [m/s]