本研究では、AdaDemo (Adaptive Online Demonstration Expansion)と呼ばれる、データ効率的なデモンストレーション拡張フレームワークを提案している。AdaDemoは、マルチタスクビジュアルポリシー学習を改善するために、デモンストレーションデータセットを適応的かつオンラインで拡張する。
具体的には以下の3つの原則に基づいている:
これらの原則に基づき、AdaDemoは既存ポリシーの弱点に的を絞ってデモンストレーションデータセットを効率的に拡張することができる。
実験では、RLBenchとAdroitの合計22のタスクを用いて評価を行った。その結果、AdaDemoは一様にデモンストレーションを収集する従来手法と比べて、データ効率が大幅に向上することが示された。具体的には、RLBenchでは従来手法の半分、Adroitでは3分の1のデータ量で同等以上の性能を達成できた。このデータ効率の向上は、大規模なデモンストレーション収集における大幅なコスト削減につながる可能性がある。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문