핵심 개념
본 논문에서는 응집성 있는 타겟 그룹이라는 기존 가정에서 벗어나 분산형 강화 학습(RL) 접근 방식을 통해 다중 에이전트 셰퍼딩 제어 문제를 해결하는 방법을 제시합니다.
초록
다중 에이전트 셰퍼딩 제어 문제에 대한 새로운 협력 전략: 강화 학습 기반 접근 방식
본 연구 논문에서는 분산형 강화 학습(RL)을 활용하여 다중 에이전트 셰퍼딩 제어 문제를 해결하는 새로운 접근 방식을 제시합니다. 기존 연구와 달리 타겟 그룹의 응집성 가정을 배제하고, 셰퍼딩 에이전트(herder)의 행동을 유도하기 위한 휴리스틱 가정에 대한 의존도를 최소화하며, 학습 기반 방법으로 해결 가능한 최적화 설정으로 문제를 공식화합니다.
셰퍼딩 제어 문제는 복잡한 시스템에서의 집단 행동을 활용하여 특정 작업을 수행하는 방법을 보여주는 대표적인 예시입니다. 일반적으로 셰퍼딩 에이전트 그룹과 타겟 에이전트 그룹, 두 그룹으로 구성되며, 셰퍼딩 에이전트는 타겟 에이전트의 전체적인 움직임을 원하는 구성으로 유도하기 위해 서로 협력합니다.
기존 연구에서는 셰퍼딩 문제의 복잡성으로 인해 완전한 제어 기반 솔루션을 얻는 데 어려움을 겪었으며, 특정 가정 없이는 문제 해결이 어려웠습니다. 또한, 많은 연구에서 타겟의 응집성 행동을 가정하여 문제를 단순화했지만, 이는 현실 세계의 복잡한 시나리오를 제대로 반영하지 못한다는 한계점이 존재했습니다.
본 연구에서는 이러한 한계점을 극복하고자 다음과 같은 목표를 설정했습니다.
타겟 응집성 가정 배제
셰퍼딩 에이전트 행동 유도를 위한 휴리스틱 가정 최소화
학습 기반 방법으로 해결 가능한 최적화 설정으로 문제 공식화
본 연구에서는 셰퍼딩 작업을 주행(driving) 전략과 타겟 선택(target selection) 전략, 두 가지 하위 작업으로 분해하여 문제에 접근합니다. 주행 전략은 셰퍼딩 에이전트가 타겟을 원하는 위치로 유도하는 것이고, 타겟 선택 전략은 각 셰퍼딩 에이전트가 추적할 타겟을 선택하는 것입니다.
1. 제어 아키텍처
각 하위 작업에 대해 분산형 학습 기반 정책을 제안하고, 각 셰퍼딩 에이전트의 상호 작용을 고정된 수의 타겟 에이전트로 제한하여 확장성을 확보합니다. 이를 위해 그림 1과 같은 2계층 제어 아키텍처를 활용합니다.
저수준 제어: 각 셰퍼딩 에이전트가 특정 타겟을 목표 영역 내에 포함하도록 안내하는 역할을 합니다.
고수준 제어: 여러 타겟 중 셰퍼딩 에이전트가 상호 작용하고 포함해야 할 타겟을 동적으로 선택하는 역할을 합니다.
2. 심층 Q-네트워크(DQN) 기반 학습
본 연구에서는 DQN 기반 전략을 사용하여 최적화 문제를 해결합니다. 여러 셰퍼딩 에이전트의 경우 정책 공유 프로토콜을 채택하며, 학습 과정은 다음 세 가지 시나리오로 구성됩니다.
단일 셰퍼딩 에이전트, 단일 타겟
단일 셰퍼딩 에이전트, 다중 타겟
다중 셰퍼딩 에이전트, 다중 타겟
첫 번째 시나리오에서는 주행 하위 작업을 위한 저수준 제어를 학습하고, 다중 타겟 시나리오에서는 타겟 선택을 위한 고수준 제어 학습에 중점을 둡니다.
3. 보상 함수 설계
각 시나리오에 적합한 보상 함수를 설계하여 에이전트가 효율적으로 학습할 수 있도록 유도합니다. 예를 들어, 주행 하위 작업에서는 타겟이 목표 영역에 진입하면 양의 보상을 제공하고, 셰퍼딩 에이전트가 목표 영역에 진입하면 페널티를 부여하여 타겟을 효과적으로 가두도록 유도합니다.