本研究では、AdaDemo (Adaptive Online Demonstration Expansion)と呼ばれる、データ効率的なデモンストレーション拡張フレームワークを提案している。AdaDemoは、マルチタスクビジュアルポリシー学習を改善するために、デモンストレーションデータセットを適応的かつオンラインで拡張する。
具体的には以下の3つの原則に基づいている:
これらの原則に基づき、AdaDemoは既存ポリシーの弱点に的を絞ってデモンストレーションデータセットを効率的に拡張することができる。
実験では、RLBenchとAdroitの合計22のタスクを用いて評価を行った。その結果、AdaDemoは一様にデモンストレーションを収集する従来手法と比べて、データ効率が大幅に向上することが示された。具体的には、RLBenchでは従来手法の半分、Adroitでは3分の1のデータ量で同等以上の性能を達成できた。このデータ効率の向上は、大規模なデモンストレーション収集における大幅なコスト削減につながる可能性がある。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Tongzhou Mu,... lúc arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07428.pdfYêu cầu sâu hơn