Core Concepts
2D 비디오를 활용하여 다양한 사용자 자세, 위치 및 장면에서 일반화된 제스처 인식을 위한 풍부하고 세부적인 레이더 데이터를 생성하는 시스템 G3R을 설계하였다.
Abstract
G3R은 6개의 모듈로 구성되어 있다:
인체 분할 모델: 2D 비디오에서 다양한 인체 구성 부위를 정확하게 추출한다.
골격 추출 모델: 2D 비디오에서 인체 골격 포인트를 추출한다.
깊이 예측 모델: 2D 골격 포인트에 깊이 정보를 보완한다.
제스처 반사 포인트 생성기: 팔 골격 포인트를 기반으로 랜덤 보간법을 사용하여 팔 반사 포인트를 확장한다.
신호 시뮬레이션 모델: RCS와 깊이 정보를 입력으로 받아 레이더 신호의 다중 경로 반사 및 감쇠를 시뮬레이션하여 인체 강도 맵을 출력한다.
인코더-디코더 모델: 생성된 데이터와 실제 레이더 데이터 간의 포인트 수와 분포 차이를 해결하기 위해 그래프 합성곱과 행렬 변환을 사용한다.
G3R은 2D 비디오와 소량의 실제 레이더 데이터를 활용하여 일반화된 제스처 인식 모델을 학습시킬 수 있다.
Stats
생성된 레이더 데이터와 실제 레이더 데이터 간 신호 강도 평균 누적 오차는 각각 789 dB, 2752 dB, 3232 dB로 나타났다.
생성된 레이더 데이터와 실제 레이더 데이터 간 radial velocity 평균 누적 오차는 각각 7.5 m/s, 7.92 m/s, 12.41 m/s로 나타났다.
Quotes
"2D 비디오를 활용하여 풍부하고 세부적인 레이더 데이터를 생성하는 것은 중요한 문제이다. 이 문제를 효과적으로 해결하지 않으면 실제 제스처 특징을 학습하는 데 어려움이 있어 인식 성능 저하를 초래할 수 있다."