Core Concepts
Task inference sequence models are beneficial in meta-RL, even without task inference objectives.
Abstract
メタ強化学習において、タスク推論シーケンスモデルはタスク推論目的がなくても有益であることが示された。特に、順列不変集約を利用したSplAggerは、最良の結果を達成する。
Stats
タスク推論シーケンスモデルは依然として有益であることを示す強力な証拠を提示しています。
SplAggerは、順列不変および順列変異コンポーネントの両方を使用して、すべての評価ドメインで最高の結果を達成します。
すべての基準線を上回ります。
パフォーマンスが向上しました。
Quotes
"Task inference sequence models are still beneficial."
"SplAgger uses both permutation variant and invariant components to achieve the best of both worlds."
"SplAgger outperforms all baselines on continuous control and memory environments."