핵심 개념
인간과 AI 시스템이 협력하는 하이브리드 팀의 성능을 향상시키기 위해, 관리자가 학습을 통해 상황에 따라 어느 에이전트에게 의사결정 권한을 위임할지 결정합니다. 관리자는 팀의 바람직한 행동을 유도하고 위험한 상황을 최소화하는 방향으로 학습합니다.
초록
이 논문은 인간과 AI 시스템이 협력하는 하이브리드 팀의 성능 향상 방법을 제안합니다.
관리자가 강화학습을 통해 상황에 따라 인간 에이전트 또는 AI 에이전트에게 의사결정 권한을 위임하는 방식을 학습합니다.
관리자는 팀의 바람직한 행동을 유도하고 위험한 상황을 최소화하는 방향으로 학습합니다.
관리자는 에이전트의 성능 측정과 무관한 독립적인 관점을 가지며, 에이전트의 행동이 관리자의 제약 조건을 위반하는 경우에만 개입합니다.
관리자는 팀의 성공과 개입 횟수를 균형있게 고려하여 최적의 위임 정책을 학습합니다.
실험 결과, 관리자가 대부분의 경우 최적에 가까운 성능을 달성하는 것을 확인했습니다.
통계
에피소드 성공 시 보상: 1 - tanh(ν · ρ)
에피소드 실패 시 보상: -tanh(ν · ρ)
ρ는 개입 횟수, ν는 스케일링 계수