Core Concepts
이 논문은 다중 로봇 작업 할당 문제에서 최대 가중 이분 그래프 매칭 기법을 개선하기 위해 그래프 강화 학습 프레임워크를 제안한다. 이를 통해 전문가가 수동으로 설계한 휴리스틱 대신 학습된 인센티브 함수를 사용하여 로봇-작업 쌍의 가중치를 계산한다.
Abstract
이 논문은 다중 로봇 작업 할당(MRTA) 문제에 대한 새로운 접근법을 제안한다. 대부분의 MRTA 문제는 유전 알고리즘, 경매 기반 방법, 이분 그래프 매칭 방법과 같은 휴리스틱 기반 방법을 사용하여 빠르고 효율적인 의사 결정을 달성한다. 그러나 이러한 방법은 전문가가 수동으로 설계한 휴리스틱에 의존하므로 복잡한 문제에 적응하기 어렵다.
이 논문은 그래프 강화 학습(GRL) 프레임워크를 사용하여 이분 그래프 매칭 접근법에 대한 휴리스틱 또는 인센티브를 학습하는 방법을 제안한다. 구체적으로 캡슐 주의 집중 정책 모델을 사용하여 작업/로봇 쌍(엣지)의 가중치를 학습한다. 이를 위해 로봇 상태 그래프 인코딩, 멀티헤드 주의 집중 기반 디코더를 추가하여 원래의 캡슐 주의 집중 네트워크 아키텍처를 근본적으로 수정했다.
실험 결과, 이 새로운 이분 그래프 매칭 접근법은 전문가가 지정한 휴리스틱을 사용한 원래의 이분 그래프 매칭 접근법과 성능이 동등하며, 더 나은 강건성 이점을 제공한다. 학습 과정에서 학습된 인센티브 정책은 초기에 전문가 지정 인센티브에 더 가까워지다가 약간 벗어나는 것으로 나타났다.
Stats
작업 수요는 1에서 10 사이의 정수로 균일 분포에서 무작위로 추출된다.
작업 마감 시간은 165초에서 550초 사이의 균일 분포에서 무작위로 추출된다.