Core Concepts
3D 인체 동작에서 텍스트 질의에 대응하는 타겟 순간을 정확하게 위치 지정하기 위해 동작 레이블 사전 지식을 활용하여 모델의 성능을 향상시킴
Abstract
이 논문은 3D 인체 동작에서 텍스트 질의에 대응하는 타겟 순간을 정확하게 위치 지정하는 문제를 다룹니다. 기존의 비디오 기반 시간적 문장 위치 지정 기법을 3D 인체 동작에 적용할 경우, 동작 데이터의 낮은 문맥적 풍부성과 프레임 간 의미적 모호성으로 인해 성능이 제한적이라는 점을 분석합니다.
이를 해결하기 위해 두 가지 새로운 레이블 사전 지식 기반 훈련 방식을 제안합니다:
레이블 사전 시퀀스 매칭기: 타겟 순간을 전경, 나머지를 배경으로 간주하여 사전 지식을 활용해 전경 영역을 강조함
레이블 사전 스팬 예측기: 예측 부분과 복구 부분을 병렬로 구성하여, 복구 부분의 정확한 예측 결과를 예측 부분에 정렬시킴
제안 모델 MLP는 이러한 기법을 통해 기존 방법 대비 높은 IoU에서 우수한 성능을 달성합니다. 또한 코퍼스 수준의 순간 검색 응용에서도 효과적임을 보여줍니다.
Stats
3D 인체 동작 데이터의 평균 길이는 BABEL 29.79초, HumanML3D (Restore) 28.87초
텍스트 질의의 평균 단어 수는 BABEL 2.37, HumanML3D (Restore) 15.12
타겟 순간의 평균 길이는 BABEL 2.45초, HumanML3D (Restore) 9.42초
타겟 순간의 길이 표준편차는 BABEL 4.33초, HumanML3D (Restore) 1.50초