ICLR 2024で発表された論文「実時間再帰学習の約束と限界を探る」では、RTRL(Real-time recurrent learning)に焦点を当てています。この手法は過去の活性化をキャッシュしたり、コンテキストを切り捨てたりせず、オンライン学習を可能にします。しかし、その時間と空間の複雑さから実用的ではありません。最近の研究では、RTRLに関する近似理論に焦点が当てられており、実験は診断設定に制限されています。本稿では、より現実的な設定でのRTRLの実用的な約束を探求しています。具体的には、アクター・評価者法を使用してRTRLとポリシーグラデーションを組み合わせた方法を研究し、DMLab-30、ProcGen、Atari-2600のいくつかの環境でテストしています。DMLabメモリタスクでは、1.2Bフレーム未満でトレーニングされたシステムがIMPALAやR2D2よりも競争力があることが示されました。また、特定の神経アーキテクチャに焦点を当てることでトラクタブルなRTRLが可能であることも明らかにしました。
翻譯成其他語言
從原文內容
arxiv.org
深入探究