TD-MPC2 presents significant improvements over baselines in online RL tasks, achieving strong results with a single set of hyperparameters and demonstrating scalability.
TD-MPC2は、大規模で多様なデータセットから学習した世界モデルを用いて、104の連続制御タスクにおいて優れた性能を発揮する。