מושגי ליבה
본 연구는 입력 데이터에 따라 동적으로 관절 간 관계를 구축하고, 복잡한 인간 동작을 효과적으로 모델링하는 새로운 공간-시간 모듈을 제안한다. 이를 통해 기존 방법들을 능가하는 수화 인식 성능을 달성한다.
תקציר
본 연구는 수화 인식을 위한 새로운 모델을 제안한다. 기존 방법들은 고정된 그래프 구조 또는 단일 학습 가능 그래프를 사용하여 관절 간 관계를 모델링하였지만, 이는 입력 데이터에 따라 동적으로 변화하는 관계를 충분히 반영하지 못했다. 또한 단순한 시간 컨볼루션을 사용하여 복잡한 인간 동작을 모델링하는 데 한계가 있었다.
이에 본 연구는 다음과 같은 두 가지 핵심 기여를 제안한다:
- 입력 데이터에 따라 동적으로 관절 간 관계를 구축하는 그래프 상관 모듈을 도입한다. 이를 통해 고정된 그래프 구조의 한계를 극복한다.
- 다중 스케일 시간 컨볼루션 모듈을 제안하여, 복잡한 인간 동작을 효과적으로 모델링한다.
이러한 공간-시간 모듈의 장점을 통해, 본 연구는 4개의 대규모 수화 인식 벤치마크에서 최신 기술 수준을 달성하였다. 특히 RGB 기반 방법에 비해 뛰어난 정확도와 계산 효율성을 보여주었다.
סטטיסטיקה
수화 인식 데이터셋 WLASL2000에서 제안 모델의 정확도는 51.44%로 기존 방법들을 크게 능가한다.
제안 모델의 파라미터 수는 7.4M으로, 다른 최신 골격 기반 방법들보다 적다.
제안 모델의 평균 FLOPs는 0.91G로, RGB 기반 I3D 모델(5.22G)에 비해 매우 낮다.
제안 모델의 평균 추론 시간은 0.05초로, I3D 모델(1.34초)에 비해 매우 빠르다.
ציטוטים
"본 연구는 입력 데이터에 따라 동적으로 관절 간 관계를 구축하고, 복잡한 인간 동작을 효과적으로 모델링하는 새로운 공간-시간 모듈을 제안한다."
"제안 모델은 4개의 대규모 수화 인식 벤치마크에서 최신 기술 수준을 달성하였으며, 특히 RGB 기반 방법에 비해 뛰어난 정확도와 계산 효율성을 보여주었다."