Core Concepts
토큰화된 자세 표현과 새로운 손실 함수를 활용하여 기존 방식의 3D 자세 정확도 저하 문제를 해결하고, 실사 데이터에서 더 정확한 3D 인체 자세 및 형상을 추정할 수 있는 방법을 제안한다.
Abstract
이 논문은 단일 이미지에서 3D 인체 자세 및 형상을 추정하는 문제를 다룬다. 기존 방식들은 2D 키포인트 및 의사 지상 진실(pseudo-ground-truth) 데이터를 활용하여 강건한 성능을 보이지만, 3D 정확도와 2D 정확도 사이의 근본적인 trade-off가 존재한다는 문제점을 발견했다. 이는 현재 방식들이 카메라 내부 및 외부 매개변수를 정확히 추정하지 못하기 때문이다.
이를 해결하기 위해 두 가지 핵심 기여를 제안한다. 첫째, Threshold-Adaptive Loss Scaling (TALS)이라는 새로운 손실 함수를 도입하여 2D 키포인트 및 의사 지상 진실 데이터의 과도한 활용을 방지한다. 둘째, 인체 자세를 연속적인 값이 아닌 이산적인 토큰으로 표현하는 방식을 제안한다. 이를 통해 유효한 자세 공간으로 추정을 제한하여 강건성을 높일 수 있다.
실험 결과, 제안 방식인 TokenHMR은 기존 최신 방식 대비 EMDB 데이터셋에서 3D 정확도를 7.6% 향상시켰다. 또한 이미지 자르기와 같은 어려운 상황에서도 더 강건한 성능을 보였다.
Stats
기존 방식의 2D 키포인트 투영 오차는 PCK0.5 0.66, PCK1.0 0.86으로 매우 크다.
2D 키포인트 오차를 최소화하면서 3D 오차를 최대 300mm까지 증가시킬 수 있다.
Quotes
"현재 방식들이 카메라 내부 및 외부 매개변수를 정확히 추정하지 못하기 때문에 3D 정확도와 2D 정확도 사이의 근본적인 trade-off가 존재한다."
"토큰화된 자세 표현을 활용하여 유효한 자세 공간으로 추정을 제한함으로써 강건성을 높일 수 있다."