Core Concepts
복잡한 환경에서 인간-객체 상호작용을 고려하여 장기 인간 궤적을 예측하는 새로운 접근법을 제안합니다.
Abstract
이 논문은 장기 인간 궤적 예측을 위한 새로운 접근법을 제안합니다. 기존의 인간 궤적 예측 방법은 충돌 회피와 단기 계획에 초점을 맞추고 있으며, 환경과의 복잡한 상호작용을 모델링하지 못하는 한계가 있습니다.
이 논문에서는 이러한 한계를 극복하기 위해 대형 언어 모델(LLM)을 활용하여 환경과의 상호작용 시퀀스를 예측하고, 이를 바탕으로 연속 시간 마르코프 체인(CTMC)을 이용하여 장기 인간 궤적의 다중 모드 시공간 분포를 예측합니다.
구체적으로, 3D 동적 장면 그래프(DSG)를 사용하여 환경의 기하학, 의미론, 통과 가능성을 계층적으로 표현하고, LLM을 활용하여 이러한 정보를 바탕으로 미래 상호작용 시퀀스를 예측합니다. 이를 CTMC 기반의 확률적 접근법을 통해 인간 위치의 다중 모드 시공간 분포로 구체화합니다.
실험 결과, 제안 방법은 기존 최신 방법 대비 60초 예측 시 54% 낮은 평균 음의 로그 우도와 26.5% 낮은 Best-of-20 변위 오차를 달성했습니다. 또한 복잡한 인간-객체 상호작용을 고려할 수 있는 새로운 반합성 데이터셋을 소개했습니다.
Stats
60초 예측 시 제안 방법의 평균 음의 로그 우도가 기존 최신 방법 대비 54% 낮습니다.
60초 예측 시 제안 방법의 Best-of-20 변위 오차가 기존 최신 방법 대비 26.5% 낮습니다.
Quotes
"기존 인간 궤적 예측 방법은 충돌 회피와 단기 계획에 초점을 맞추고 있으며, 환경과의 복잡한 상호작용을 모델링하지 못하는 한계가 있습니다."
"제안 방법은 대형 언어 모델(LLM)을 활용하여 환경과의 상호작용 시퀀스를 예측하고, 이를 바탕으로 연속 시간 마르코프 체인(CTMC)을 이용하여 장기 인간 궤적의 다중 모드 시공간 분포를 예측합니다."