Conceitos essenciais
HiMemFormer는 다중 에이전트 환경에서 행동 예측을 위해 전역 컨텍스트 정보와 에이전트별 정보를 계층적으로 활용하는 트랜스포머 기반 모델입니다.
Resumo
HiMemFormer: 다중 에이전트 행동 예측을 위한 계층적 메모리 인식 트랜스포머
본 논문에서는 다중 에이전트 환경에서 에이전트의 미래 행동을 예측하는 데 있어 기존 방법들의 한계점을 극복하고자 새로운 모델인 HiMemFormer를 제안합니다. 기존 방법들은 시간적 의존성 모델링이나 에이전트 상호 작용 의존성 모델링 중 하나에만 집중하여 전역적인 맥락 정보를 고려하지 못하는 한계를 보였습니다. HiMemFormer는 이러한 한계를 극복하기 위해 전역 컨텍스트 정보와 에이전트별 정보를 계층적으로 활용하여 보다 정확한 행동 예측을 수행하는 것을 목표로 합니다.
HiMemFormer는 트랜스포머 기반의 인코더-디코더 구조를 가지며, 계층적인 전역 및 로컬 메모리 어텐션 메커니즘을 통해 다중 에이전트 환경에서 온라인 행동 예측을 수행합니다.
Agent-to-Context Encoder
에이전트별 장기 메모리는 에이전트의 과거 행동에 대한 유용한 정보를 제공하지만, 다중 에이전트 상호 작용이 있는 복잡한 환경에서는 모든 에이전트가 공유하는 컨텍스트 정보에 주목하는 것이 중요합니다. 이를 위해 Agent-to-Context Encoder는 에이전트의 장기 메모리를 전역 특징에 추가적인 주의를 기울여 보강하는 특정-대-일반 접근 방식을 따릅니다. 먼저 타겟 에이전트의 장기 메모리 특징을 Transformer Block에 입력하여 고정된 길이의 잠재 표현으로 압축합니다. 그런 다음 컨텍스트 장기 히스토리를 쿼리로 사용하고 인코딩된 에이전트의 장기 메모리를 Context Encoder에 전달하여 최종적으로 인코딩된 장기 메모리를 얻습니다.
Context-to-Agent Decoder
컨텍스트 정보와 에이전트별 정보를 기반으로 에이전트의 미래 행동을 예측하기 위해 Context-to-Agent Decoder는 coarse-to-fine 접근 방식을 사용합니다. 먼저 컨텍스트 단기 특징을 사용하여 장면 내 모든 에이전트의 가능한 미래 행동을 포함하는 coarse prediction을 수행하고, 에이전트별 단기 특징을 쿼리로 사용하여 타겟 에이전트의 미래 행동으로 범위를 좁혀 최종 예측을 수행합니다.
Training Objectives
HiMemFormer의 손실 함수는 coarse action loss와 refined action loss의 두 가지 구성 요소로 이루어져 있으며, 각 에이전트의 예측된 행동 예측 확률 분포와 ground truth 예측 레이블 간의 empirical cross entropy loss를 사용합니다.