Core Concepts
WHAM은 동영상에서 정확하고 효율적으로 3D 인간 동작을 세계 좌표계에서 재구성한다.
Abstract
WHAM은 다음과 같은 전략을 사용하여 동영상에서 정확하고 효율적으로 3D 인간 동작을 세계 좌표계에서 재구성한다:
2D 키포인트와 픽셀 정보를 통합하여 정밀하고 픽셀 정렬된 3D 인간 동작을 재구성한다.
접촉 인식 궤적 복구를 통해 발 미끄러짐 없이 인간을 전역 좌표계에 배치한다.
WHAM은 다음과 같은 장점을 가진다:
동작 맥락과 시각 정보를 통합하여 정확한 3D 인간 자세와 형태를 추정한다.
카메라 각속도 정보를 활용하여 세계 좌표계에서 정확한 3D 인간 궤적을 추정한다.
접촉 인식을 통해 평면이 아닌 지형에서도 정확한 동작 추정이 가능하다.
실시간 성능을 제공하며 기존 방법들을 능가하는 정확도를 달성한다.
Stats
동작 추정의 정확도와 부드러움을 높이기 위해 AMASS 데이터셋의 3D 모션 캡처 데이터를 활용한다.
세계 좌표계에서의 동작 추정을 위해 SLAM 기법이나 카메라 자이로스코프에서 얻은 카메라 각속도 정보를 활용한다.
평면이 아닌 지형에서의 동작 추정을 위해 접촉 확률 정보를 활용한다.
Quotes
"WHAM은 동영상에서 정확하고 효율적으로 3D 인간 동작을 세계 좌표계에서 재구성한다."
"WHAM은 동작 맥락과 시각 정보를 통합하여 정확한 3D 인간 자세와 형태를 추정한다."
"WHAM은 접촉 인식을 통해 평면이 아닌 지형에서도 정확한 동작 추정이 가능하다."