이 연구는 점수 기반 조건부 밀도 추정 프레임워크를 사용하여 비디오의 다음 프레임을 예측하는 새로운 방법을 제시하며, 특히 폐색 경계를 효과적으로 처리하고 예측의 불확실성을 정량화하는 데 중점을 둡니다.
iVideoGPT는 대규모 인간 및 로봇 조작 궤적에 대한 사전 훈련을 통해 다양한 다운스트림 작업에 적용 가능한 대화형 세계 모델을 구축하는 확장 가능한 자동 회귀 변환기 프레임워크입니다.
본 논문에서는 제한된 과거 데이터에서 미래 비디오 프레임을 예측하는 새로운 방법인 모션 그래프를 소개합니다. 모션 그래프는 비디오 프레임의 패치를 상호 연결된 그래프 노드로 변환하여 시공간적 관계를 포괄적으로 설명합니다. 이 표현은 복잡한 모션 패턴을 포착하지 못하거나 과도한 메모리 소비로 어려움을 겪는 기존 모션 표현(이미지 차이, 옵티컬 플로우 및 모션 매트릭스 등)의 한계를 극복합니다. 또한 모션 그래프를 통해 강화된 비디오 예측 파이프라인을 제시하여 상당한 성능 향상과 비용 절감을 보여줍니다. UCF Sports, KITTI 및 Cityscapes를 포함한 다양한 데이터 세트에 대한 실험은 모션 그래프의 강력한 표현 능력을 강조합니다. 특히 UCF Sports에서 우리의 방법은 모델 크기를 78% 줄이고 GPU 메모리 사용량을 47% 줄이면서 SOTA 방법과 일치하고 능가합니다.
인간의 재사고 과정에서 영감을 받은 EVA는 구체화된 환경에서 비디오 이해 및 생성을 위한 통합 프레임워크를 제공하여 미래 사건을 예측하는 세계 모델의 성능을 향상시킵니다.
본 연구는 비결정적 외관 예측과 확률적 동작 예측으로 전체 비디오 프레임 생성을 분해하는 상태 공간 분해 비디오 예측 모델을 제안한다. 조건부 프레임에서 장기 동작 추세를 추론하여 미래 프레임 생성 시 일관성을 높인다.