本論文では、逆順カリキュラムと順方向カリキュラムを組み合わせた新しい強化学習アルゴリズム「RFCL」を提案している。
逆順カリキュラムでは、実演データの初期状態から逆方向にカリキュラムを構築し、狭い初期状態分布でタスクを解くことができる初期的な方策を学習する。その後、順方向カリキュラムを用いて、この初期的な方策を徐々に拡張し、広い初期状態分布でタスクを解けるようにする。
この2段階のカリキュラム学習により、少数の実演データでも高い効率で複雑なタスクを解くことができる。実験では、従来手法と比べて大幅な実演データと学習サンプル数の削減を実現している。特に、従来手法では解けなかった高精度な操作を要するタスクも解くことができる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Stone Tao,Ar... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03379.pdfDeeper Inquiries