본 논문에서는 마스크형 자기회귀(MAR)의 유연성과 확산 모델(DM)의 강력한 생성 기능을 결합한 새로운 비디오 생성 패러다임인 MarDini를 제안합니다. MarDini는 비디오 생성을 시간적 모델링과 공간적 모델링이라는 두 가지 하위 작업으로 분해하고, 비대칭 디자인을 기반으로 서로 다른 네트워크에서 처리합니다.
유연성: MarDini는 유연한 마스킹 전략을 통해 다양한 비디오 생성 작업을 지원합니다. 예를 들어 첫 번째 프레임이 주어지고 나머지 프레임이 마스킹된 경우 이미지-비디오 생성을 수행하고, 비디오가 주어지고 후속 프레임이 마스킹된 경우 비디오 확장을 수행하며, 첫 번째 프레임과 마지막 프레임이 주어지고 중간 프레임이 마스킹된 경우 비디오 보간을 수행합니다. 또한, MarDini는 여러 추론 단계에서 중간 프레임을 계층적 및 자기회귀적으로 마스킹하여 슬로우 모션 비디오를 생성할 수 있습니다.
확장성: MarDini는 생성적 이미지 기반 사전 훈련에 의존하지 않고 처음부터 대규모로 훈련할 수 있습니다. 대부분의 비디오 생성 모델이 이미지 생성 후 보조 작업으로 비디오를 처리하는 것과 달리, MarDini는 마스크 비율 조정을 활용하여 훈련 작업의 난이도를 점진적으로 조정합니다. 이러한 접근 방식을 통해 모델은 이미지 기반 사전 훈련 없이 비디오 보간에서 전체 비디오 생성으로 확장할 수 있습니다.
효율성: MarDini의 비대칭 디자인은 저해상도에 더 많은 계산 리소스를 할당하여 추론 중 메모리 효율성을 높이고 속도를 높입니다. MarDini는 전체 메모리 사용량이 적기 때문에 계산적으로 집약적인 시공간적 주의 메커니즘을 대규모로 배포하여 복잡한 모션 역학을 모델링하는 기능을 향상시킵니다.
MarDini는 고중량 MAR 계획 모델과 경량 생성 DM이라는 두 개의 네트워크로 구성됩니다. 훈련 중에 계획 네트워크는 무작위로 마스킹된 저해상도 프레임을 처리하고 해당 계획 신호를 예측합니다. 이러한 계획 신호는 의미적 및 장거리 시간 정보를 압축하여 DM의 고해상도 생성 프로세스를 안내합니다. DM은 마스킹된 위치에서 노이즈가 있는 프레임을 수신하고 노이즈를 점진적으로 제거하여 재구성합니다.
MarDini는 작업 난이도를 점진적으로 높이는 다단계 점진적 훈련 전략을 사용합니다. 이러한 접근 방식은 훈련 안정성을 높이고 생성 모델의 성능을 향상시키며, 초기 단계의 체크포인트를 수집하여 차선의 구성으로 인한 차질을 완화하는 데 도움이 됩니다.
초기 단계: 계획 모델과 생성 모델을 각각의 학습 목표로 개별적으로 훈련하여 모델 가중치를 초기화합니다.
공동 모델 단계: 마스크된 확산 손실만 사용하여 간단한 비디오 보간 작업에 대한 공동 훈련을 위해 모델을 결합합니다.
공동 작업 단계: 보존된 참조 프레임 수를 점진적으로 줄여 모델을 추가로 훈련하여 비디오 보간 및 이미지-비디오 생성 작업을 공동으로 학습할 수 있도록 합니다.
MarDini는 MAR 기반 계획 신호를 DiT 기반 경량 소형 확산 모델과 통합하여 비디오 보간에서 최첨단 기술을 설정하는 동시에 몇 번의 추론 단계만으로 훨씬 더 비싼 고급 이미지-비디오 모델의 비디오와 동등한 비디오를 효율적으로 생성합니다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések