toplogo
Bejelentkezés

일관성 궤적 모델: 확산 과정의 확률 흐름 ODE 궤적 학습


Alapfogalmak
일관성 모델(CM)은 샘플링 속도를 높이지만 샘플 품질이 저하되는 문제가 있다. 이를 해결하기 위해 일관성 궤적 모델(CTM)은 점수(로그 밀도의 기울기)와 임의의 초기 및 최종 시간 사이의 확률 흐름 ODE 궤적을 출력할 수 있는 단일 신경망을 학습한다. CTM은 적대적 훈련과 디노이징 스코어 매칭 손실을 결합하여 성능을 향상시키며, CIFAR-10과 ImageNet 64x64에서 새로운 SOTA FID를 달성한다.
Kivonat
이 논문은 일관성 모델(CM)의 한계를 해결하기 위해 일관성 궤적 모델(CTM)을 제안한다. CTM은 점수(로그 밀도의 기울기)와 확률 흐름 ODE 궤적을 동시에 예측할 수 있는 단일 신경망을 학습한다. 이를 통해 CM의 속도-품질 트레이드오프 문제를 해결하고, 적대적 훈련과 디노이징 스코어 매칭 손실을 결합하여 성능을 향상시킨다. 주요 내용은 다음과 같다: CTM은 점수 함수와 ODE 궤적 적분을 동시에 예측하는 단일 신경망을 학습한다. 이를 통해 점수 기반 모델과 증류 모델을 통합한다. CTM의 "anytime-to-anytime" 점프 학습을 통해 적대적 훈련과 디노이징 스코어 매칭 손실을 결합할 수 있다. 이를 통해 CIFAR-10과 ImageNet 64x64에서 새로운 SOTA FID를 달성한다. CTM은 점수 함수에 대한 접근을 제공하여 기존 확산 모델 커뮤니티의 제어 가능한/조건부 생성 방법을 활용할 수 있다. CTM은 새로운 γ-샘플링 방법을 제공하여 결정론적 및 확률적 샘플링 방식을 모두 지원한다.
Statisztikák
확률 흐름 ODE는 dxt/dt = xt - E[x|xt]/t로 표현된다. CTM은 Gθ(xt, t, s) = (s/t)xt + (1 - s/t)gθ(xt, t, s)와 같이 신경망으로 ODE 궤적을 예측한다. CTM의 손실 함수는 LCTM(θ; ϕ) = Et,s,u,x0,xt[d(xtarget(xt, t, u, s), xest(xt, t, s))]로 정의된다. CTM은 LDSM(θ) = Et,x0,xt[||x0 - gθ(xt, t, t)||2 2]의 디노이징 스코어 매칭 손실과 LGAN(θ, η)을 추가로 사용한다.
Idézetek
"CTM은 점수 함수와 ODE 궤적 적분을 동시에 예측하는 단일 신경망을 학습한다." "CTM의 'anytime-to-anytime' 점프 학습을 통해 적대적 훈련과 디노이징 스코어 매칭 손실을 결합할 수 있다." "CTM은 새로운 γ-샘플링 방법을 제공하여 결정론적 및 확률적 샘플링 방식을 모두 지원한다."

Főbb Kivonatok

by Dongjun Kim,... : arxiv.org 03-14-2024

https://arxiv.org/pdf/2310.02279.pdf
Consistency Trajectory Models

Mélyebb kérdések

CTM의 γ-샘플링 방법이 다른 샘플링 기법과 어떤 차이가 있는지 자세히 설명해 주세요. CTM이 기존 확산 모델 커뮤니티의 제어 가능한/조건부 생성 방법을 활용할 수 있는 이유는 무엇인가요

CTM의 γ-샘플링은 다른 샘플링 방법과 비교하여 독특한 특징을 가지고 있습니다. 먼저, γ-샘플링은 시간을 따라 솔루션 경로를 이동할 수 있는 유연성을 제공합니다. 이는 초기 및 최종 시간 사이의 임의의 시간 간격을 허용하며, 이를 통해 새로운 샘플링 방법을 가능하게 합니다. 또한, γ-샘플링은 다양한 γ 값에 따라 샘플 분산을 조절할 수 있습니다. γ 값이 1인 경우 완전히 확률적이며, NFE가 증가함에 따라 의미적 변동이 발생할 수 있습니다. 반면, γ 값이 0에 가까워질수록 결정론적인 샘플링 방법이 되어 이산화 오차를 제거하고 샘플 품질을 향상시킵니다. 이러한 특징들은 CTM의 γ-샘플링이 기존 샘플링 기법과 차별화되는 요인입니다.

CTM의 학습 과정에서 디노이징 스코어 매칭 손실과 적대적 손실을 결합하는 것이 왜 중요한지 설명해 주세요.

CTM이 기존 확산 모델 커뮤니티의 제어 가능한/조건부 생성 방법을 활용할 수 있는 이유는 주어진 점수 함수에 접근할 수 있기 때문입니다. CTM은 단일 전방 통과로 점수(즉, 로그 밀도의 그래디언트)를 출력할 수 있으며, 이를 통해 제어 가능한/조건부 생성 방법을 쉽게 적용할 수 있습니다. 또한, CTM은 확산 커뮤니티에서 이미 확립된 제어 가능한/조건부 생성 방법을 스트리밍화할 수 있습니다. 이러한 접근 방식은 CTM이 다양한 생성 방법을 효율적으로 결합하고 활용할 수 있도록 합니다.

CTM의 학습 과정에서 디노이징 스코어 매칭 손실과 적대적 손실을 결합하는 것은 중요한 이유가 있습니다. 먼저, 디노이징 스코어 매칭 손실은 작은 NFE에서 샘플 품질을 유지하는 데 도움이 되며, NFE가 증가함에 따라 정확한 점수 추정을 통해 샘플 품질을 크게 향상시킵니다. 또한, 적대적 손실은 학생의 학습을 향상시키는 데 중요한 역할을 합니다. 이 손실은 재구성 손실과 적대적 손실을 결합하여 생성 품질을 향상시키는 데 도움이 됩니다. 따라서, 디노이징 스코어 매칭 손실과 적대적 손실을 통합하는 것은 CTM의 학습 과정에서 중요한 역할을 합니다.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star