이 논문은 강화학습을 위한 정책 표현으로 일관성 모델을 제안한다. 기존 연구에서는 확산 모델이 다양한 모드의 데이터를 모델링하는 데 효과적이라고 알려져 있지만, 샘플링 과정이 느리다는 단점이 있다. 이에 반해 일관성 모델은 빠른 샘플링 속도를 가지면서도 유사한 성능을 보인다.
논문에서는 일관성 모델 기반 정책 표현을 세 가지 강화학습 설정(오프라인, 오프라인-온라인, 온라인)에 적용하여 평가한다. 오프라인 강화학습에서는 일관성 모델과 확산 모델 기반 정책이 기존 방법들과 비교해 우수한 성능을 보인다. 특히 일관성 모델은 확산 모델에 비해 훈련 및 추론 시간이 크게 단축된다. 오프라인-온라인 및 온라인 강화학습에서도 일관성 모델은 확산 모델과 유사한 성능을 보이면서 계산 효율성이 크게 향상된다.
이를 통해 일관성 모델이 강화학습을 위한 효과적이고 효율적인 정책 표현 방법임을 보여준다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Zihan Ding,C... klo arxiv.org 03-18-2024
https://arxiv.org/pdf/2309.16984.pdfSyvällisempiä Kysymyksiä