Core Concepts
Return-Aligned Decision Transformer는 실제 수익과 목표 수익의 차이를 줄이기 위해 설계되었습니다. 이를 위해 수익 정보를 상태-행동 정보와 분리하여 모델링하고, 수익과 다른 모달리티 간의 관계를 명시적으로 다룹니다.
Abstract
이 논문은 오프라인 강화 학습에서 실제 수익과 목표 수익의 정렬 문제를 다룹니다. 기존의 접근법인 Decision Transformer (DT)는 수익, 상태, 행동을 하나의 입력 시퀀스로 통합하지만, 이로 인해 수익 정보의 영향력이 감소할 수 있습니다.
이를 해결하기 위해 저자들은 Return-Aligned Decision Transformer (RADT)를 제안합니다. RADT는 수익 정보를 상태-행동 정보와 분리하여 입력으로 사용하고, 수익과 다른 모달리티 간의 관계를 모델링하는 두 가지 핵심 기술을 도입했습니다:
수익 정보와 상태-행동 정보 간의 cross-attention 메커니즘
수익 정보를 활용하여 상태-행동 특징을 적응적으로 스케일링하는 adaptive layer normalization
이러한 기술들을 통해 RADT는 실제 수익과 목표 수익의 차이를 크게 줄일 수 있었습니다. MuJoCo와 Atari 도메인에서의 실험 결과, RADT는 기존 방법들에 비해 실제 수익과 목표 수익의 정렬 성능이 크게 향상되었습니다.
Stats
MuJoCo 도메인에서 RADT의 실제 수익과 목표 수익 간 절대 오차는 DT 대비 39.7% 수준으로 감소했습니다.
Atari 도메인에서 RADT의 실제 수익과 목표 수익 간 절대 오차는 DT 대비 29.8% 수준으로 감소했습니다.
Quotes
"Return-Aligned Decision Transformer (RADT)는 실제 수익과 목표 수익의 정렬을 위해 설계되었습니다."
"RADT는 수익 정보를 상태-행동 정보와 분리하여 입력으로 사용하고, 수익과 다른 모달리티 간의 관계를 모델링하는 기술을 도입했습니다."