HARP는 다중 에이전트 강화 학습을 위한 새로운 프레임워크로, 훈련 중 에이전트의 자동 그룹화와 배치 중 전략적 인간 지원을 통합한다. 훈련 중에는 에이전트가 협업 과제 완수를 위해 동적으로 그룹을 조정한다. 배치 중에는 에이전트가 인간의 도움을 적극적으로 요청하고, 퍼뮤테이션 불변 그룹 평가기를 활용하여 인간이 제안한 그룹화를 평가하고 개선한다. 이를 통해 전문가가 아닌 사용자도 유용한 제안을 할 수 있다. 다양한 협업 시나리오에서 제한적인 인간 지원을 활용하여 성능을 향상시킬 수 있다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések