핵심 개념
DyST 모델은 단일 카메라 실제 세계 동영상에서 장면 내용, 각 뷰의 장면 동역학 및 카메라 자세에 대한 잠재적 분해를 학습합니다.
초록
이 논문은 실제 세계 동영상의 3D 구조와 동역학을 동시에 포착하는 동적 신경 장면 표현 학습에 대해 다룹니다. 저자들은 Dynamic Scene Transformer(DyST) 모델을 제안하며, 이는 최근 신경 장면 표현 학습 연구를 활용하여 단일 카메라 실제 세계 동영상에서 장면 내용, 각 뷰의 장면 동역학 및 카메라 자세에 대한 잠재적 분해를 학습합니다.
DyST는 다음과 같은 핵심 기여를 제공합니다:
- 단일 카메라 실제 세계 동영상에서 동적 신경 장면 표현을 학습하는 모델을 제안합니다.
- 장면 내용, 카메라 자세 및 장면 동역학을 분리하는 독특한 훈련 체계를 통해 잠재 표현의 분해를 유도합니다.
- 모델의 학습된 잠재 표현에 대한 자세한 분석을 제공합니다.
- 동적 장면 표현 학습을 위한 새로운 합성 데이터셋 DySO를 제안합니다.
저자들은 DyST가 실제 세계 동영상에서 카메라 자세와 장면 동역학을 성공적으로 분리할 수 있음을 보여줍니다. 이를 통해 동영상 조작, 장면 제어 등의 다양한 응용 분야에 활용할 수 있습니다.
통계
단일 카메라 실제 세계 동영상에서 학습된 카메라 자세와 장면 동역학 잠재 표현은 서로 잘 분리되어 있습니다.
합성 DySO 데이터셋에서 학습된 모델은 카메라 자세와 장면 동역학을 독립적으로 잘 추정할 수 있습니다.
인용구
"DyST는 단일 카메라 실제 세계 동영상에서 장면 내용, 각 뷰의 장면 동역학 및 카메라 자세에 대한 잠재적 분해를 학습합니다."
"DyST는 장면 내용, 카메라 자세 및 장면 동역학을 분리하는 독특한 훈련 체계를 통해 잠재 표현의 분해를 유도합니다."