우주 공간에서 위성 간 추격-회피 게임을 위해 다양한 적대적 강화 학습 기법을 활용하여 회피 위성의 강건한 정책을 학습하는 방법을 제안한다.
우선순위를 부여하고 높은 우선순위 에이전트가 먼저 행동하도록 하면 다중 에이전트 강화 학습의 비정상성을 완화할 수 있다.
HARP는 훈련 중 자동 에이전트 재그룹화와 배치 중 전략적 인간 지원을 통해 복잡한 다중 에이전트 과제에서 성능을 향상시킨다.
조건부 협력자(CC) 에이전트의 협력 행동을 유도하기 위해 심층 강화 학습 에이전트가 자신의 기여를 통해 사회적 규범을 형성하는 방법
제한된 통신 자원 하에서 에이전트 간 수요를 인식하고 맞춤형 메시지를 생성하여 효율적인 협업을 달성하는 방법
다양성은 자연 시스템의 회복력을 높이는 데 중요한 역할을 하지만, 기존 다중 에이전트 강화 학습 기법은 학습 효율성 증대를 위해 동질성을 강요한다. 본 연구에서는 행동 이질성을 정량화할 수 있는 새로운 측정 지표인 System Neural Diversity (SND)를 제안한다.
MESA는 다중 에이전트 학습에서 상태-행동 공간의 구조를 활용하여 효율적인 탐색 전략을 학습한다.
다중 에이전트 동기화 과제는 에이전트 간 정확한 동기화와 통신이 필수적인 협력 과제로, 현재 접근법의 한계를 보여준다.
다중 에이전트 강화 학습에서 분산 실행은 중복 계산 문제를 겪지만, 제안된 국소적 중앙 실행 프레임워크를 통해 이를 효과적으로 해결할 수 있다.
다중 에이전트 환경에서 에이전트 간 협력 관계와 그룹 간 의존성을 동시에 고려하여 협력 그래프를 학습하는 방법을 제안한다.