핵심 개념
본 논문에서는 다양한 데이터셋과 modality를 통합하여 인간 동작 예측을 위한 새로운 사전 훈련 모델인 Multi-Transmotion을 제안합니다. Multi-Transmotion은 다양한 프레임 설정에 유연하게 적응하고, 노이즈가 있는 입력 데이터를 효과적으로 처리하며, 궤적 예측 및 포즈 예측과 같은 다양한 다운스트림 작업에서 경쟁력 있는 성능을 달성합니다.
초록
Multi-Transmotion: 다양한 프레임 설정에서 인간 동작 예측을 위한 사전 훈련된 모델
본 연구는 인간 동작 예측 분야에서 다양한 모달리티(예: 궤적, 3D 포즈 키포인트)를 활용하고 다양한 프레임 설정에 유연하게 적응할 수 있는 사전 훈련된 모델을 개발하는 것을 목표로 합니다.
1. 통합 인간 동작 데이터 프레임워크 구축
기존의 여러 데이터셋(JTA, Trajnet++, JRDB-Pose, NBA, Human3.6M, AMASS, 3DPW)을 통합하여 대규모 데이터 프레임워크를 구축했습니다.
데이터셋마다 다른 데이터 형식과 프레임 설정을 표준화하여 훈련 프로세스를 간소화했습니다.
2초 관찰, 4초 예측, 초당 5 프레임(fps)의 일관된 형식으로 데이터 시퀀스를 생성했습니다.
다양한 모달리티를 포함하는 7개 데이터셋을 병합하여 궤적에 대해 200만 개 이상, 3D 포즈 키포인트에 대해 100만 개 이상의 샘플을 확보했습니다.
2. Multi-Transmotion 모델 개발
다양한 시각적 단서를 통합하고 다양한 수평선, 프레임 속도 및 포즈 키포인트에 적응하도록 설계된 멀티모달 사전 훈련 모델인 Multi-Transmotion을 제안합니다.
공간-시간적 정보를 유지하기 위해 모달리티별 선형 투영 계층을 사용하여 좌표를 트랜스포머의 hidden dimension으로 토큰화했습니다.
모델의 견고성과 적응성을 향상시키기 위해 업샘플링 패딩, 샘플링 마스크 및 양방향 시간 인코딩 전략을 고안했습니다.
다양한 프레임 속도로 쉽게 미세 조정할 수 있도록 사전 훈련 중에 유효한 토큰에 업샘플링 패딩을 적용했습니다.
샘플링 마스크를 통해 모델이 다양한 청크 크기를 마스킹하여 다양한 프레임 속도를 시뮬레이션할 수 있도록 했습니다.
마지막 관찰부터 시작하여 관찰과 예측을 개별적으로 인코딩하는 양방향 시간 인코딩을 사용하여 미세 조정 프로세스 중에 다양한 관찰 및 예측 수평선에 맞게 원활하게 조정할 수 있도록 했습니다.
모델의 견고성을 높이기 위해 동적 공간-시간 마스크를 도입하여 모든 프레임에 대해 3D/2D 포즈 키포인트의 총 개수 중 동적 공간 비율(0 < rs < 1)을 무작위로 마스킹했습니다.
궤적 및 3D/2D 경계 상자 모달리티에 대해 시간 비율(rt = 0.1)을 적용하여 일부 데이터 프레임을 무작위로 마스킹했습니다.