핵심 개념
데모 데이터셋을 능동적이고 지속적으로 확장하여 범용 로봇 에이전트의 성능을 향상시킬 수 있다.
초록
이 연구는 AdaDemo (Adaptive Online Demonstration Expansion)라는 프레임워크를 제안합니다. AdaDemo는 다중 과제 시각 정책 학습을 개선하기 위해 데모 데이터셋을 능동적이고 지속적으로 확장하는 것을 목표로 합니다.
AdaDemo의 핵심 원칙은 다음과 같습니다:
- 현재 정책의 성능이 낮은 과제에 대해 더 많은 데모를 수집한다.
- 각 과제 내에서 현재 정책이 실패하는 초기 상태에 대해 데모를 수집한다.
- 학습 과정에서 어려운 과제에 더 많은 가중치를 두는 샘플링 전략을 사용한다.
이를 통해 AdaDemo는 현재 정책의 약점을 직접적으로 해결하는 데모를 수집하고, 이를 효과적으로 활용하여 데이터 효율성을 극대화합니다.
실험 결과, AdaDemo는 RLBench와 Adroit 벤치마크에서 총 22개의 과제를 대상으로 기존 방식 대비 데이터 효율성이 2배 이상 높은 것으로 나타났습니다. 이는 대규모 데모 수집 시 상당한 비용 절감으로 이어질 수 있습니다.
통계
기존 방식 대비 AdaDemo는 RLBench에서 데이터 양이 약 2배, Adroit에서 약 3배 적은 데이터로 더 나은 성능을 달성했습니다.
RLBench에서 AdaDemo의 평균 성공률은 64.1%이며, 기존 방식은 60.4%입니다.
Adroit에서 AdaDemo의 평균 성공률은 71.8%이며, 기존 방식은 67.4%입니다.
인용구
"AdaDemo는 현재 정책의 약점을 직접적으로 해결하는 데모를 수집하고, 이를 효과적으로 활용하여 데이터 효율성을 극대화합니다."
"실험 결과, AdaDemo는 기존 방식 대비 데이터 효율성이 2배 이상 높은 것으로 나타났습니다. 이는 대규모 데모 수집 시 상당한 비용 절감으로 이어질 수 있습니다."