핵심 개념
확산 기반 궤적 편집 기법(xTED)은 복잡한 도메인 특화 정책 전이 모델을 사용하지 않고도 데이터 수준에서 도메인 간 격차를 해결할 수 있다.
초록
이 연구는 교차 도메인 정책 적응 문제를 데이터 전처리 문제로 재정의하는 새로운 접근법인 xTED를 제안한다. xTED는 목표 도메인의 궤적 분포를 사전 학습된 확산 모델(Decision Diffusion Transformer, DDiT)을 통해 캡처하고, 이를 활용하여 소스 도메인 궤적을 편집함으로써 도메인 간 격차를 해결한다.
DDiT 아키텍처는 상태, 행동, 보상 간의 복잡한 의존성을 효과적으로 모델링할 수 있도록 설계되었다. xTED는 도메인/작업 특화 설계가 필요 없고, 다양한 소스 도메인을 수용할 수 있으며, 임의의 관측 인코더와 정책 학습 방법과 호환된다는 장점이 있다.
실험 결과, xTED는 시뮬레이션 및 실제 로봇 작업에서 기존 방법들에 비해 우수한 성능을 보였다. 또한 DDiT는 단일 도메인 데이터 증강에도 효과적인 것으로 나타났다.
통계
목표 도메인 데이터는 D4RL 벤치마크에서 20k 전이를 무작위로 선택하여 사용했다.
소스 도메인 데이터는 SAC 정책을 사용하여 20k 전이를 수집했다.
인용구
"Rather than relying on complex and domain-specific policy transfer models, is it possible to bridge domain gaps at the data (trajectory) level?"
"xTED cast cross-domain policy adaptation as a novel, generic, and flexible data pre-processing problem, which is domain-agnostic, accommodating multiple source domains without the need for re-training or fine-tuning the diffusion model; modality-agnostic, being compatible with various observation encoders; task-agnostic, integrating seamlessly with any task-specific policy learning method; compatible with other policy adaptation approaches for greater synergy."