Core Concepts
AdaDemoは、既存のポリシーの弱点に的を絞ってデモンストレーションデータセットを効率的に拡張することで、マルチタスクビジュアルポリシー学習を改善する。
Abstract
本研究では、AdaDemo (Adaptive Online Demonstration Expansion)と呼ばれる、データ効率的なデモンストレーション拡張フレームワークを提案している。AdaDemoは、マルチタスクビジュアルポリシー学習を改善するために、デモンストレーションデータセットを適応的かつオンラインで拡張する。
具体的には以下の3つの原則に基づいている:
既存ポリシーの失敗が多い初期状態でのデモンストレーション収集に重点を置く
既存ポリシーの成功率が低いタスクにより多くのデモンストレーションを収集する
トレーニング時のサンプリング戦略を調整し、より困難なタスクに重点を置く
これらの原則に基づき、AdaDemoは既存ポリシーの弱点に的を絞ってデモンストレーションデータセットを効率的に拡張することができる。
実験では、RLBenchとAdroitの合計22のタスクを用いて評価を行った。その結果、AdaDemoは一様にデモンストレーションを収集する従来手法と比べて、データ効率が大幅に向上することが示された。具体的には、RLBenchでは従来手法の半分、Adroitでは3分の1のデータ量で同等以上の性能を達成できた。このデータ効率の向上は、大規模なデモンストレーション収集における大幅なコスト削減につながる可能性がある。
Stats
RLBenchの"Put in Drawer"タスクでは、AdaDemoが最終的に94.7%の成功率を達成したのに対し、従来手法は82.7%にとどまった。
Adroitの"Relocate"タスクでは、AdaDemoが最終的に25.2%の成功率を達成したのに対し、従来手法は32.2%にとどまった。
Quotes
"AdaDemoは、既存ポリシーの弱点に的を絞ってデモンストレーションデータセットを効率的に拡張することで、マルチタスクビジュアルポリシー学習を改善する。"
"実験の結果、AdaDemoは従来手法と比べて、RLBenchでは半分、Adroitでは3分の1のデータ量で同等以上の性能を達成できた。"