本研究では、強化学習におけるゼロショット一般化の課題に取り組んでいる。ゼロショット一般化とは、エージェントが全く新しい環境に適応できることを意味する。
著者らは、環境のコンテキスト情報(重力レベルなど)を理解し活用することが頑健な一般化に不可欠であると主張している。そのため、コンテキスト表現の学習をポリシー学習と直接統合することを提案している。
提案手法は、様々なシミュレーション環境においてゼロショット設定でより良い一般化性能を示した。特に、行動固有のコンテキスト表現を学習することで、未知の環境にも適応できる強化学習システムの実現に向けて前進している。
提案手法では、まず過去の遷移データからコンテキスト表現を推論する。次に、このコンテキスト表現とステート情報を組み合わせてポリシーを学習する。これにより、ポリシーに適した行動固有のコンテキスト表現が獲得される。
実験の結果、提案手法は既存手法と比べて、カートポール、振り子、山登り、アントの各環境でゼロショット一般化性能が高いことが示された。特に複雑な環境であるアントでの性能が顕著に優れていた。
また、提案手法で学習されたコンテキスト表現は、環境の遷移ダイナミクスをよく捉えていることが確認された。これにより、ポリシーに適したコンテキスト表現を学習できたことが、優れた一般化性能につながったと考えられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問