이 논문은 2D 픽셀을 3D 공간으로 리프팅하고 3D 공간에서 추적하는 방법을 제안한다. 먼저 각 프레임의 3D 장면을 삼면 표현(triplane representation)으로 인코딩한다. 그 다음 삼면 표현에서 추출한 특징을 이용하여 트랜스포머 모델로 3D 궤적을 반복적으로 예측한다. 또한 ARAP(as-rigid-as-possible) 제약을 통해 3D 궤적을 정규화하여 복잡한 움직임과 가림 현상에 강인한 성능을 보인다. 실험 결과 다양한 벤치마크에서 기존 방법들을 뛰어넘는 성능을 보였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問