מושגי ליבה
일관성 모델(CM)은 샘플링 속도를 높이지만 샘플 품질이 저하되는 문제가 있다. 이를 해결하기 위해 일관성 궤적 모델(CTM)은 점수(로그 밀도의 기울기)와 임의의 초기 및 최종 시간 사이의 확률 흐름 ODE 궤적을 출력할 수 있는 단일 신경망을 학습한다. CTM은 적대적 훈련과 디노이징 스코어 매칭 손실을 결합하여 성능을 향상시키며, CIFAR-10과 ImageNet 64x64에서 새로운 SOTA FID를 달성한다.
תקציר
이 논문은 일관성 모델(CM)의 한계를 해결하기 위해 일관성 궤적 모델(CTM)을 제안한다. CTM은 점수(로그 밀도의 기울기)와 확률 흐름 ODE 궤적을 동시에 예측할 수 있는 단일 신경망을 학습한다. 이를 통해 CM의 속도-품질 트레이드오프 문제를 해결하고, 적대적 훈련과 디노이징 스코어 매칭 손실을 결합하여 성능을 향상시킨다.
주요 내용은 다음과 같다:
CTM은 점수 함수와 ODE 궤적 적분을 동시에 예측하는 단일 신경망을 학습한다. 이를 통해 점수 기반 모델과 증류 모델을 통합한다.
CTM의 "anytime-to-anytime" 점프 학습을 통해 적대적 훈련과 디노이징 스코어 매칭 손실을 결합할 수 있다. 이를 통해 CIFAR-10과 ImageNet 64x64에서 새로운 SOTA FID를 달성한다.
CTM은 점수 함수에 대한 접근을 제공하여 기존 확산 모델 커뮤니티의 제어 가능한/조건부 생성 방법을 활용할 수 있다.
CTM은 새로운 γ-샘플링 방법을 제공하여 결정론적 및 확률적 샘플링 방식을 모두 지원한다.
סטטיסטיקה
확률 흐름 ODE는 dxt/dt = xt - E[x|xt]/t로 표현된다.
CTM은 Gθ(xt, t, s) = (s/t)xt + (1 - s/t)gθ(xt, t, s)와 같이 신경망으로 ODE 궤적을 예측한다.
CTM의 손실 함수는 LCTM(θ; ϕ) = Et,s,u,x0,xt[d(xtarget(xt, t, u, s), xest(xt, t, s))]로 정의된다.
CTM은 LDSM(θ) = Et,x0,xt[||x0 - gθ(xt, t, t)||2
2]의 디노이징 스코어 매칭 손실과 LGAN(θ, η)을 추가로 사용한다.
ציטוטים
"CTM은 점수 함수와 ODE 궤적 적분을 동시에 예측하는 단일 신경망을 학습한다."
"CTM의 'anytime-to-anytime' 점프 학습을 통해 적대적 훈련과 디노이징 스코어 매칭 손실을 결합할 수 있다."
"CTM은 새로운 γ-샘플링 방법을 제공하여 결정론적 및 확률적 샘플링 방식을 모두 지원한다."