Core Concepts
정책 기반 궤적 확산(PolyGRAD)은 자기회귀적 샘플링 없이 단일 확산 과정을 통해 온-정책 합성 궤적을 생성하는 새로운 세계 모델 접근법이다.
Abstract
이 논문은 정책 기반 궤적 확산(PolyGRAD)이라는 새로운 세계 모델 접근법을 제안한다. 기존 세계 모델은 자기회귀적 방식으로 다음 상태를 예측하고 정책에서 행동을 샘플링하여 궤적을 생성한다. 이 방식은 예측 오차가 누적되어 궤적 길이가 길어질수록 성능이 저하된다.
PolyGRAD는 이러한 문제를 해결하기 위해 확산 모델을 활용한다. PolyGRAD는 초기에 무작위 상태와 행동으로 이루어진 궤적을 입력받고, 탈노이즈 모델과 정책의 점수 함수를 사용하여 이를 온-정책 궤적으로 점진적으로 변환한다. 이를 통해 단일 확산 과정에서 전체 온-정책 궤적을 생성할 수 있다.
논문에서는 PolyGRAD가 스코어 기반 생성 모델 및 분류기 기반 확산 모델과 어떤 관련이 있는지 분석한다. 실험 결과, PolyGRAD는 단기 궤적 예측 오차 측면에서 기존 최신 기법을 능가하며, 장기 궤적에서도 기존 기법과 견줄만한 성능을 보인다. 또한 PolyGRAD를 활용하여 온-정책 강화 학습을 수행할 수 있음을 보였다.
Stats
정책 행동 분포의 점수 함수 ∇a log π(a|s)를 사용하여 행동을 업데이트한다.
상태 예측을 위해 탈노이즈 모델 ϵθ(b
τ sr
i | i, b
τ a
i )를 사용한다.
Quotes
"PolyGRAD는 자기회귀적 샘플링 없이 단일 확산 과정을 통해 온-정책 합성 궤적을 생성하는 새로운 세계 모델 접근법이다."
"PolyGRAD는 스코어 기반 생성 모델 및 분류기 기반 확산 모델과 관련이 있다."
"PolyGRAD는 단기 궤적 예측 오차 측면에서 기존 최신 기법을 능가하며, 장기 궤적에서도 기존 기법과 견줄만한 성능을 보인다."