toplogo
Đăng nhập

비디오 기반 인체 자세 회귀를 위한 공간-시간 분리 집계


Khái niệm cốt lõi
비디오 시퀀스의 시간적 의존성을 활용하여 효율적이고 효과적인 비디오 기반 인체 자세 회귀 방법을 제안한다.
Tóm tắt

이 논문은 비디오 기반 인체 자세 추정을 위한 효율적이고 효과적인 회귀 프레임워크를 제안한다. 기존의 이미지 기반 회귀 방법은 비디오 입력에 대해 성능이 크게 저하되는 문제가 있다. 이를 해결하기 위해 제안하는 Decoupled Space-Time Aggregation (DSTA) 네트워크는 인체 관절의 공간적 구조 의존성과 시간적 동적 의존성을 별도로 모델링한다.

DSTA는 먼저 Joint-centric Feature Decoder (JFD) 모듈을 통해 각 관절에 대한 특징 토큰을 추출한다. 이후 Space-Time Decoupling (STD) 모듈에서 이 토큰들을 활용하여 관절 간 공간적 구조 의존성과 각 관절의 시간적 동적 의존성을 별도로 모델링한다. 이렇게 얻은 공간-시간 집계 특징을 이용하여 최종 관절 좌표를 회귀한다.

실험 결과, DSTA는 이미지 기반 회귀 방법에 비해 큰 성능 향상을 보였으며, 최신 열맵 기반 비디오 자세 추정 방법과 견줄만한 성능을 달성했다. 또한 DSTA는 계산 복잡도와 메모리 사용량 측면에서도 큰 장점을 가져, 실시간 비디오 응용에 더 적합하다.

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Thống kê
제안 방법 DSTA는 HRNet-W48 백본을 사용할 때 PoseTrack2017 데이터셋에서 84.6 mAP를 달성하여, 동일 백본의 HRNet 방법 대비 7.3 포인트 향상되었다. DSTA는 DCPose 방법 대비 1.8 포인트 높은 성능을 보였다. DSTA의 회귀 헤드 계산량은 DCPose의 열맵 헤드 대비 1/550 수준으로 매우 효율적이다.
Trích dẫn
"비디오 시퀀스의 시간적 의존성을 활용하여 복잡한 상황(가림, 모션 블러, 비디오 초점 흐림 등)에서도 뛰어난 성과를 보여주는 다프레임 인체 자세 추정 알고리즘이 있다." "각 관절의 시간적 궤적은 상대적으로 독립적이다."

Thông tin chi tiết chính được chắt lọc từ

by Jijie He,Wen... lúc arxiv.org 04-01-2024

https://arxiv.org/pdf/2403.19926.pdf
Video-Based Human Pose Regression via Decoupled Space-Time Aggregation

Yêu cầu sâu hơn

비디오 기반 인체 자세 추정에서 공간적 구조와 시간적 동적 의존성을 별도로 모델링하는 것이 중요한 이유는 무엇인가

비디오 기반 인체 자세 추정에서 공간적 구조와 시간적 동적 의존성을 별도로 모델링하는 이유는 다양하다. 먼저, 각 관절은 시간적으로 상대적으로 독립적인 움직임 궤적을 보이기 때문에 시간적 의존성을 개별 관절 수준에서 모델링하는 것이 중요하다. 이는 각 관절이 자체적으로 독립적인 움직임을 보이기 때문에 전체 자세의 시간적 동적 의존성을 모델링하는 것보다 관절별로 모델링하는 것이 더 적합하다는 것을 의미한다. 또한, 관절 간의 공간적 상관 관계는 인체 자세에서 중요한 구조적 정보를 제공하므로 공간적 구조를 모델링하는 것도 중요하다. 이러한 이유로 공간적 구조와 시간적 동적 의존성을 별도로 모델링하여 각각의 특성을 더 잘 파악하고 활용할 수 있다.

제안 방법 DSTA의 성능 향상이 주로 시간적 의존성 모델링에 기인한다고 볼 수 있는데, 공간적 구조 모델링이 상대적으로 작은 영향을 미치는 이유는 무엇일까

DSTA의 성능 향상이 주로 시간적 의존성 모델링에 기인하는 이유는 각 관절의 독립적인 시간적 움직임을 적절히 모델링하여 더 정확한 결과를 얻을 수 있기 때문이다. 관절 간의 공간적 구조는 이미 JFD 모듈을 통해 관절의 특성을 잘 포착하고 있기 때문에 SD 모듈이 추가적인 공간적 구조 정보를 제공하는 데 상대적으로 작은 영향을 미칠 수 있다. 반면, TD 모듈은 각 관절의 시간적 동적 의존성을 모델링하여 더 정확한 결과를 얻을 수 있도록 도와주기 때문에 DSTA의 성능 향상에 더 큰 영향을 미칠 수 있다.

DSTA의 효율성과 실시간성 향상이 실제 응용에 어떤 영향을 줄 수 있을까

DSTA의 효율성과 실시간성 향상은 실제 응용에 많은 영향을 줄 수 있다. 먼저, DSTA는 고해상도 히트맵을 사용하지 않고도 높은 성능을 발휘하면서도 계산 및 저장 요구 사항을 줄일 수 있어 실시간 비디오 응용 프로그램에 적합하다. 또한, 효율적인 모델 구조로 인해 에지 장치와 같은 제한된 자원을 가진 환경에서도 쉽게 배포할 수 있다. 이는 실제 시나리오에서 더 빠른 응답 시간과 더 효율적인 자원 활용을 의미하며, 이는 인체 자세 추정을 포함한 다양한 응용 분야에서 혁신적인 결과를 이끌어낼 수 있다.
0
star