Core Concepts
Decision Transformer 아키텍처를 활용하여 부분 관측 비선형 동적 시스템의 폐루프 제어 문제를 해결할 수 있다. 이를 통해 별도의 추정기 설계 없이도 과거 관측, 행동, 보상 정보를 기반으로 현재 최적 행동을 예측할 수 있다.
Abstract
이 논문은 부분 관측 비선형 동적 시스템의 폐루프 제어 문제를 해결하기 위해 Decision Transformer (DT) 아키텍처를 탐구한다.
먼저 제어 문제를 과거 관측, 행동, 보상 정보를 기반으로 현재 최적 행동을 예측하는 문제로 정식화한다. 이를 통해 별도의 상태 추정기 설계 없이도 "근사 정보 상태"를 압축할 수 있다.
이후 사전 훈련된 GPT-2 언어 모델을 DT의 초기화에 활용하고, 저순위 적응 (LoRA) 기법을 통해 제어 과제에 대해 DT를 추가 학습한다.
실험 결과, DT는 항공우주 시스템 제어부터 편미분 방정식 제어에 이르는 5가지 다양한 제어 과제에서 일관되게 우수한 성능을 보였다. 특히 DT는 완전히 새로운 과제에 대해 제로 샷 일반화 능력을 발휘하였고, 최소한의 시연 데이터로도 전문가 수준의 성능을 빠르게 달성할 수 있었다. 이는 DT가 제어 과제의 매개변수 무관 구조를 포착할 수 있음을 시사한다.
Stats
제어 과제의 상태 차원 ns, 행동 차원 na, 관측 차원 no, 시간 단계 n, 샘플링 시간은 각 과제별로 다음과 같다:
he1: ns=4, na=2, no=1, n=50, 샘플링 시간 0.05
ac4: ns=9, na=1, no=2, n=50, 샘플링 시간 0.05
cm3: ns=120, na=1, no=2, n=50, 샘플링 시간 0.25
CDR: ns=64, na=5, no=10, n=100, 샘플링 시간 0.1
Burgers: ns=64, na=5, no=10, n=100, 샘플링 시간 0.05