이 연구 논문에서는 복잡한 제어 문제를 해결하기 위해 계층적 강화 학습(HRL)과 피라미드 메시지 전달 아키텍처를 활용하는 새로운 방법론인 FGRL(Feudal Graph Reinforcement Learning)을 제안합니다.
강화 학습(RL)은 로봇 제어, 게임 인공지능 등 다양한 분야에서 놀라운 성과를 보여주었지만, 여전히 샘플 복잡성 측면에서 한계를 가지고 있습니다. 이러한 문제를 해결하기 위해 작업 및 관련 물리적 객체의 관계적 구성성을 활용하는 등 학습 시스템에 귀납적 편향을 포함하는 방법이 연구되고 있습니다. 이러한 맥락에서 그래프는 시스템의 기본 구조를 포착하기 위한 적합한 표현으로 등장합니다. 메시지 전달 그래프 신경망(GNN)에서 처리될 때 이러한 그래프 표현은 경험의 재사용 및 에이전트 간 모델 전송을 가능하게 합니다. 그러나 모듈식 메시지 전달 정책의 사용은 학습 시스템에 부과하는 제약 측면에서도 우려 사항이 있습니다. 예를 들어 로봇 에이전트의 경우, 링크를 가장자리로 표현하고 다양한 유형의 관절(또는 사지)을 노드로 표현하는 그래프를 고려하여 자연스러운 관계 표현을 얻을 수 있습니다. 이 프레임워크에서 정책은 분산 방식으로 단일 의사 결정 단위(로봇 예제의 경우 액추에이터) 수준에서 학습될 수 있습니다. 그러나 최근 연구에 따르면 기존 접근 방식은 에이전트의 형태를 완전히 활용할 수 있는 구성 가능한 정책을 학습하는 데 성공적이지 못했습니다. 특히, 이러한 모듈식 아키텍처에서 동일하게 복제된 처리 모듈은 저수준 컨트롤러(예: 로봇 다리의 관절에 토크 적용) 역할을 하는 동시에 달리기 또는 멀리 떨어진 목표에 도달하는 것과 같은 글로벌 수준에서 복잡하고 시간적으로 확장된 작업을 처리해야 합니다.
FGRL은 계층적 RL 및 피라미드 메시지 전달 아키텍처를 사용하여 이러한 문제를 해결합니다. FGRL은 상위 수준 명령이 계층 구조의 맨 위에서 계층 그래프 구조를 통해 아래로 전파되는 정책 계층 구조를 정의합니다. 하위 계층은 물리적 시스템의 형태를 모방하는 반면 상위 계층은 고차 하위 모듈에 해당합니다. 결과적으로 에이전트는 특정 수준의 작업이 아래 수준의 목표를 설정하는 정책 위원회의 특징을 가지므로 작업 분해를 자연스럽게 구현할 수 있는 계층적 의사 결정 구조를 구현합니다.
논문에서는 그래프 클러스터링 문제와 MuJoCo 이동 작업에 대해 제안된 프레임워크를 평가합니다. 시뮬레이션 결과 FGRL은 관련 기준선에 비해 우수한 성능을 보여줍니다. 또한 명령 전파 메커니즘에 대한 심층 분석을 통해 도입된 메시지 전달 체계가 계층적 의사 결정 정책 학습에 유리하다는 증거를 제시합니다.
FGRL은 그래프 기반 HRL에 대한 새로운 방법론적 딥 러닝 프레임워크를 도입하여 HRL 에이전트의 구조와 일치하는 편향을 통합하는 딥 RL 아키텍처를 설계하는 데 중요한 진전을 이루었습니다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究