다양한 시나리오에서 이질적인 에이전트의 다양한 행동을 정확하게 시뮬레이션하는 것이 핵심 목표이다. 이를 위해 차등 가능한 시뮬레이션을 통한 상태 매칭, 이중 정책 정규화, 그리고 시간적으로 추상화된 혼합 코드북 모듈을 제안한다.
GPUDrive는 대규모 멀티 에이전트 강화학습 연구를 위한 고성능 시뮬레이터로, 실제 주행 데이터를 활용하여 초당 백만 단계 이상의 속도로 시뮬레이션을 실행합니다.