核心概念
HARP는 훈련 중 자동 에이전트 재그룹화와 배치 중 전략적 인간 지원을 통해 복잡한 다중 에이전트 과제에서 성능을 향상시킨다.
摘要
HARP는 다중 에이전트 강화 학습을 위한 새로운 프레임워크로, 훈련 중 에이전트의 자동 그룹화와 배치 중 전략적 인간 지원을 통합한다. 훈련 중에는 에이전트가 협업 과제 완수를 위해 동적으로 그룹을 조정한다. 배치 중에는 에이전트가 인간의 도움을 적극적으로 요청하고, 퍼뮤테이션 불변 그룹 평가기를 활용하여 인간이 제안한 그룹화를 평가하고 개선한다. 이를 통해 전문가가 아닌 사용자도 유용한 제안을 할 수 있다. 다양한 협업 시나리오에서 제한적인 인간 지원을 활용하여 성능을 향상시킬 수 있다.
统计
8m 맵에서 HARP의 승률은 100%로 다른 방법들보다 높다.
5m vs 6m 맵에서 HARP의 승률은 100%로 다른 방법들의 53.1% ~ 65.6%보다 크게 높다.
MMM2 맵에서 HARP의 평균 점수는 20.1로 다른 방법들의 15.8 ~ 19.3보다 높다.
引用
"HARP는 훈련 중 자동 에이전트 재그룹화와 배치 중 전략적 인간 지원을 통해 복잡한 다중 에이전트 과제에서 성능을 향상시킨다."
"HARP는 전문가가 아닌 사용자도 유용한 제안을 할 수 있게 한다."