이 논문은 실제 세계 동영상의 3D 구조와 동역학을 동시에 포착하는 동적 신경 장면 표현 학습에 대해 다룹니다. 저자들은 Dynamic Scene Transformer(DyST) 모델을 제안하며, 이는 최근 신경 장면 표현 학습 연구를 활용하여 단일 카메라 실제 세계 동영상에서 장면 내용, 각 뷰의 장면 동역학 및 카메라 자세에 대한 잠재적 분해를 학습합니다.
DyST는 다음과 같은 핵심 기여를 제공합니다:
저자들은 DyST가 실제 세계 동영상에서 카메라 자세와 장면 동역학을 성공적으로 분리할 수 있음을 보여줍니다. 이를 통해 동영상 조작, 장면 제어 등의 다양한 응용 분야에 활용할 수 있습니다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Maximilian S... às arxiv.org 03-18-2024
https://arxiv.org/pdf/2310.06020.pdfPerguntas Mais Profundas