Alapfogalmak
TD-MPC2は、大規模で多様なデータセットから学習した世界モデルを用いて、104の連続制御タスクにおいて優れた性能を発揮する。
Kivonat
本論文では、TD-MPC2と呼ばれる新しいモデルベースの強化学習アルゴリズムを提案する。TD-MPC2は、学習した暗黙的(デコーダーフリー)な世界モデルの潜在空間で局所的な軌道最適化を行うことで、優れた性能を発揮する。
具体的には以下の通り:
- DMControl、Meta-World、ManiSkill2、MyoSuiteの104の多様な連続制御タスクにおいて、既存の手法を大きく上回る性能を示す。これは単一の設定のハイパーパラメータで実現している。
- モデルサイズと学習データ量を増やすことで、エージェントの能力が向上することを示す。単一の317M パラメータのエージェントが、複数のタスクドメイン、エンボディメント、行動空間にわたる80タスクを学習することに成功した。
- TD-MPC2の設計上の改善点が、ロバスト性とスケーラビリティの向上に寄与していることを示す。
Statisztikák
1Mパラメータのモデルでは正規化スコアが16.0、317Mパラメータのモデルでは70.6に達する。
80タスクのデータセットで学習したモデルの正規化スコアは54.2である。