이 논문은 실제 세계 동영상의 3D 구조와 동역학을 동시에 포착하는 동적 신경 장면 표현 학습에 대해 다룹니다. 저자들은 Dynamic Scene Transformer(DyST) 모델을 제안하며, 이는 최근 신경 장면 표현 학습 연구를 활용하여 단일 카메라 실제 세계 동영상에서 장면 내용, 각 뷰의 장면 동역학 및 카메라 자세에 대한 잠재적 분해를 학습합니다.
DyST는 다음과 같은 핵심 기여를 제공합니다:
저자들은 DyST가 실제 세계 동영상에서 카메라 자세와 장면 동역학을 성공적으로 분리할 수 있음을 보여줍니다. 이를 통해 동영상 조작, 장면 제어 등의 다양한 응용 분야에 활용할 수 있습니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Maximilian S... alle arxiv.org 03-18-2024
https://arxiv.org/pdf/2310.06020.pdfDomande più approfondite