이 논문은 단일 RGB-D 입력에서 양손의 정확한 3D 메쉬를 복원하는 효과적인 엔드-투-엔드 프레임워크를 제안한다. 주요 내용은 다음과 같다:
RGB 이미지와 깊이 정보를 효과적으로 융합하기 위해 피라미드 딥 퓨전 네트워크(PDFNet)를 도입했다. PDFNet은 다중 스케일 특징 융합을 통해 RGB와 깊이 정보의 상호 보완적인 특징을 효과적으로 활용한다.
깊이 정보를 점군 형태로 처리하여 기하학적 정보를 더 잘 보존하고, 적응적 가중치 할당 모듈을 통해 두 입력 모달리티 간의 불균형을 해결했다.
GCN 기반 디코더를 사용하여 입력 특징으로부터 정교한 3D 손 메쉬를 복원한다. 이를 통해 단순 키포인트 예측이 아닌 실제 세계 크기의 손 메쉬를 출력할 수 있다.
다양한 실험을 통해 제안 방법이 기존 최신 기법들을 크게 능가하는 성능을 보임을 입증했다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jinwei Ren,J... kl. arxiv.org 04-11-2024
https://arxiv.org/pdf/2307.06038.pdfDybere Forespørgsler