이 논문은 단일 RGB-D 입력에서 양손의 정확한 3D 메쉬를 복원하는 효과적인 엔드-투-엔드 프레임워크를 제안한다. 주요 내용은 다음과 같다:
RGB 이미지와 깊이 정보를 효과적으로 융합하기 위해 피라미드 딥 퓨전 네트워크(PDFNet)를 도입했다. PDFNet은 다중 스케일 특징 융합을 통해 RGB와 깊이 정보의 상호 보완적인 특징을 효과적으로 활용한다.
깊이 정보를 점군 형태로 처리하여 기하학적 정보를 더 잘 보존하고, 적응적 가중치 할당 모듈을 통해 두 입력 모달리티 간의 불균형을 해결했다.
GCN 기반 디코더를 사용하여 입력 특징으로부터 정교한 3D 손 메쉬를 복원한다. 이를 통해 단순 키포인트 예측이 아닌 실제 세계 크기의 손 메쉬를 출력할 수 있다.
다양한 실험을 통해 제안 방법이 기존 최신 기법들을 크게 능가하는 성능을 보임을 입증했다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jinwei Ren,J... lúc arxiv.org 04-11-2024
https://arxiv.org/pdf/2307.06038.pdfYêu cầu sâu hơn