이 논문은 현대 생성 모델(DGM)이 마르코프 의사 결정 과정(MDP)에 적용되지 않는 이유를 분석하고, 이를 해결하기 위한 새로운 생성 모델 프레임워크인 벨만 확산을 제안한다.
현대 DGM(에너지 기반 모델, 생성 적대 신경망, 스코어 기반 생성 모델 등)은 고품질 데이터 생성과 복잡한 연속 분포 근사에 큰 발전을 이루었지만, 마르코프 의사 결정 과정(MDP) 및 분포 강화 학습(distributional RL)에는 적용되지 않고 있다. 이는 DGM의 비선형성이 MDP의 선형 벨만 방정식과 충돌하기 때문이다.
벨만 확산은 분포 공간에서 선형 연산자로 생성 모델링을 수행하여 이 문제를 해결한다. 구체적으로 gradient 필드 ∇ptarget(x)와 scalar 필드 ptarget(x)를 직접 모델링하고, 이를 활용한 새로운 확산 동역학을 제안한다.
이론적으로 벨만 확산 동역학은 초기 분포와 무관하게 목표 분포 ptarget(x)에 지수적으로 수렴하며, 신경망 근사 오차를 고려한 오차 분석을 제공한다.
실험 결과, 벨만 확산은 고품질 이미지 생성과 분포 강화 학습 과제에서 안정적이고 빠른 수렴 성능을 보인다. 특히 불균형 다중 모드 분포 학습에서 강점을 보인다.
이 연구는 DGM을 MDP 응용 분야에 효과적으로 통합할 수 있는 새로운 방향을 제시한다.
A otro idioma
del contenido fuente
arxiv.org
Consultas más profundas