核心概念
본 논문은 비디오 확산 모델과 다중 뷰 확산 모델을 결합하여 고효율의 병렬 프로세스로 다중 뷰 및 다중 프레임 이미지 어레이를 직접 생성하고, 이를 활용해 연속적인 4D 표현을 최적화하는 새로운 프레임워크를 제안한다.
摘要
본 논문은 동적 3D 콘텐츠 생성을 위한 새로운 프레임워크인 Diffusion2를 제안한다. Diffusion2는 비디오 확산 모델과 다중 뷰 확산 모델을 결합하여 고효율의 병렬 프로세스로 다중 뷰 및 다중 프레임 이미지 어레이를 직접 생성한다.
구체적으로:
비디오 확산 모델은 동적 프라이어를 제공하고, 다중 뷰 확산 모델은 기하학적 일관성 프라이어를 제공한다.
이미지 어레이의 요소들이 조건부 독립이라는 가정 하에, 두 모델의 추정 점수를 결합하여 노이즈를 제거하는 간단하고 효과적인 전략을 설계한다.
생성된 이미지 어레이를 4D 재구성 파이프라인에 입력하여 연속적인 4D 표현을 최적화한다.
다양한 프롬프트(단일 이미지, 단일 뷰 비디오, 정적 3D 모델)에 대해 유연하게 적용 가능하다.
실험 결과, 제안 방법은 기존 최적화 기반 방법 대비 효율성과 품질 면에서 우수한 성능을 보인다.
統計資料
본 논문에서는 대규모 비디오 데이터와 정적 다중 뷰 이미지 데이터를 활용하여 비디오 확산 모델과 다중 뷰 확산 모델을 각각 학습한다.
생성된 다중 뷰 다중 프레임 이미지 어레이는 4D 재구성 파이프라인에 입력되어 연속적인 4D 표현을 최적화한다.
引述
"최근 3D 생성의 주요 발전은 인터넷 규모의 이미지 데이터로 사전 학습된 3D 인지 이미지 확산 모델의 발전에 힘입은 바가 크다."
"그러나 동기화된 다중 뷰 비디오 데이터의 부족으로 인해 이 패러다임을 4D 생성에 직접 적용하는 것은 실용적이지 않다."
"본 논문에서는 비디오 확산 모델과 다중 뷰 확산 모델의 지식을 활용하여 직접 밀집 다중 뷰 및 다중 프레임 이미지를 샘플링함으로써 연속적인 4D 표현을 최적화할 수 있는 Diffusion2라는 새로운 프레임워크를 제안한다."