본 연구는 지능형 교통 시스템(ITS) 환경에서 에지 클라우드 컴퓨팅을 위한 다중 목적 최적화 문제를 다룬다. ITS 환경은 동적이고 분산되어 있으며, 참여자들(차량 사용자, 운영자 등)은 다양하고 변화하며 때로는 상충되는 목적을 가지고 있다.
기존 강화 학습 알고리즘은 주로 단일 목적 최적화에 초점을 맞추고 있어, 다중 목적 문제에는 적용하기 어렵다. 본 연구에서는 다중 목적, 다중 에이전트 강화 학습 알고리즘을 제안한다. 이 알고리즘은 높은 학습 효율과 낮은 계산 요구사항을 가지며, 동적이고 분산된 환경에서 희소하고 지연된 보상이 있을 때 자동으로 적응형 소량 학습을 수행할 수 있다.
제안 알고리즘은 오프라인 두 단계 학습 과정을 거친다. 첫째, 내부 루프 학습 단계에서 각 에이전트는 자신의 목적 가중치 벡터에 따라 최적의 전략을 학습한다. 둘째, 외부 루프 학습 단계에서 코디네이터 에이전트가 모든 에이전트의 학습 결과를 종합하여 일반화된 다중 목적 모델을 생성한다. 이 모델은 온라인 추론 및 재학습 단계에서 에이전트가 새로운 환경과 목적 변화에 빠르게 적응할 수 있게 한다.
실험 결과, 제안 알고리즘은 기존 최신 기법들에 비해 모든 개별 및 시스템 지표에서 우수한 성능을 보였다. 또한 단일 보드 컴퓨터에서 6밀리초 내에 추론이 가능하여 실제 구현에 적합한 것으로 나타났다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések