핵심 개념
M3Act는 다양한 장면, 조명 조건, 다중 시점, 다중 인물, 다중 그룹 활동을 포함하는 대규모 합성 데이터 생성기로, 인간 중심 컴퓨터 비전 작업을 지원한다.
초록
M3Act는 Unity Engine과 Perception 라이브러리를 활용하여 구축된 대규모 합성 데이터 생성기이다. 이 생성기는 다음과 같은 특징을 가지고 있다:
- 다양한 장면, 조명 조건, 다중 시점을 제공하며, 2,200개의 인체 모델, 384개의 애니메이션 클립, 6개의 그룹 활동을 포함한다.
- 2D 및 3D 관절, 메시, 바운딩 박스, 개인 및 그룹 ID, 활동 클래스 등의 풍부한 주석을 제공한다.
- M3ActRGB와 M3Act3D라는 두 개의 대규모 합성 데이터셋을 생성하였다. M3ActRGB는 6백만 프레임의 RGB 이미지와 4천8백만 개의 바운딩 박스를 포함하며, M3Act3D는 87.6시간 분량의 3D 그룹 활동 데이터를 포함한다.
실험 결과, M3Act 데이터를 활용하면 다중 인물 추적, 그룹 활동 인식 등의 작업에서 성능이 크게 향상되며, 실제 데이터의 상당 부분을 대체할 수 있음을 보여준다. 또한 M3Act는 새로운 연구 과제인 3D 그룹 활동 생성을 위한 데이터셋을 제공한다.
통계
다중 인물 추적 실험에서 M3Act 합성 데이터를 활용하면 DanceTrack 데이터셋의 HOTA 점수가 10위에서 2위로 상승했다.
그룹 활동 인식 실험에서 M3Act 합성 데이터로 사전 학습하면 Composer 모델의 그룹 활동 및 개인 행동 인식 정확도가 각각 4.87%와 7.43% 향상되었다.
인용구
"M3Act는 다양한 장면, 조명 조건, 다중 시점, 다중 인물, 다중 그룹 활동을 포함하는 대규모 합성 데이터 생성기로, 인간 중심 컴퓨터 비전 작업을 지원한다."
"실험 결과, M3Act 데이터를 활용하면 다중 인물 추적, 그룹 활동 인식 등의 작업에서 성능이 크게 향상되며, 실제 데이터의 상당 부분을 대체할 수 있음을 보여준다."