본 논문에서는 희소한 카메라 시점에서 고해상도 이미지 렌더링을 위한 일반화 가능한 가우시안 스플래팅 접근 방식을 제안합니다. 이를 위해 소스 뷰에 정의된 가우시안 매개변수 맵을 도입하고, 미세 조정이나 최적화 없이 즉각적인 새로운 뷰 합성을 위해 가우시안 속성을 직접 회귀합니다. 2D 매개변수 맵을 3D 공간으로 리프팅하기 위해 깊이 추정 모듈과 함께 인간 전용 데이터 또는 인간-장면 데이터에 대한 가우시안 매개변수 회귀 모듈을 학습합니다. 제안된 프레임워크는 깊이 및 렌더링 감독 또는 렌더링 감독만으로 완전히 차별화됩니다. 또한 특히 깊이 감독을 무시할 때 두 소스 뷰 간의 기하학적 일관성을 유지하기 위해 정규화 항과 에피폴라 어텐션 메커니즘을 도입합니다. 여러 데이터 세트에 대한 실험 결과, 제안된 방법이 최첨단 방법보다 성능이 뛰어나면서도 탁월한 렌더링 속도를 달성한다는 것을 보여줍니다.
최근 차별화 가능한 렌더링 기술은 자유 시점 비디오 합성에서 유망한 결과를 보여주었습니다. 그러나 가우시안 스플래팅이나 신경 암시적 렌더링과 같은 기존 방법은 일반적으로 대상별 최적화가 필요하며, 이는 대화형 애플리케이션에서 실시간 렌더링 요구 사항을 충족하지 못합니다.
제안된 GPS-Gaussian+는 입력으로 희소한 카메라 시점에서 촬영된 인간 중심 장면의 RGB 이미지를 사용하여 실시간으로 고품질의 자유 시점 비디오를 생성하는 것을 목표로 합니다. 대상의 새로운 시점이 주어지면 희소 카메라에서 두 개의 인접한 시점을 선택합니다. 그런 다음 공유 이미지 인코더를 사용하여 두 입력 이미지에서 에피폴라 어텐션을 통해 이미지 특징을 추출하고, 이를 사용하여 양안 깊이 추정기로 두 소스 뷰에 대한 깊이 맵을 예측합니다. 3D 가우시안의 색상은 해당 소스 뷰 픽셀에 의해 직접 결정되는 반면, 3D 가우시안의 다른 매개변수는 예측된 깊이 값과 이전 이미지 특징을 네트워크에 입력할 때 픽셀 단위로 예측됩니다. 소스 뷰 이미지의 RGB 맵과 결합된 이러한 매개변수 맵은 2D 이미지 평면에서 가우시안 표현을 공식화하고 추정된 깊이를 사용하여 3D 공간으로 더 투영되지 않습니다. 두 뷰에서 투영되지 않은 가우시안은 집계되어 차별화 가능한 방식으로 대상 시점으로 렌더링되므로 렌더링 손실만으로도 엔드 투 엔드 학습이 가능합니다.
제안된 방법을 평가하기 위해 DyN-eRF 및 ENeRF-outdoor 데이터 세트에서 장면의 캐릭터 성능 데이터를 수집했습니다. 또한 장면에서 단일 캐릭터 또는 다중 캐릭터 성능의 모션 시퀀스를 캡처하여 장면 전체에서 제안된 방법의 견고성을 테스트했습니다. 제안된 방법을 가우시안 스플래팅 기반 방법인 MVSplat, 암시적 방법인 ENeRF, 이미지 기반 렌더링 방법인 FloRen, 하이브리드 방법인 IBRNet을 포함한 일반화 가능한 방법과 비교했습니다. 실험 결과, 제안된 GPS-Gaussian+ 접근 방식은 다른 방법에 비해 가장 빠른 속도로 우수하거나 경쟁력 있는 결과를 달성했습니다. 특히 LPIPS 지표에서 큰 개선을 보였는데, 이는 더 나은 글로벌 렌더링 품질을 나타냅니다.
본 논문에서 제안된 GPS-Gaussian+는 희소한 시점에서 실시간으로 고품질의 인간-장면 렌더링을 가능하게 하는 새로운 방법입니다. 실험 결과, 제안된 방법은 기존 방법보다 성능이 뛰어나며 다양한 응용 분야에서 유용하게 활용될 수 있을 것으로 기대됩니다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Boyao Zhou, ... في arxiv.org 11-19-2024
https://arxiv.org/pdf/2411.11363.pdfاستفسارات أعمق