본 연구는 강화 학습 알고리즘의 효과성을 높이기 위해 구조 정보 원리에 기반한 새로운 의사결정 프레임워크 SIDM을 제안한다.
SIDM은 다음과 같은 핵심 구성 요소를 포함한다:
상태와 행동 그래프 구축: 관측과 행동 간 유사성을 측정하여 가중치 있는 무향 그래프를 구축한다. 이때 중요하지 않은 간선은 제거된다.
계층적 추상화: 그래프의 구조 엔트로피를 최소화하여 상태와 행동을 계층적으로 추상화한다. 각 커뮤니티의 가중치 평균을 사용하여 추상 상태와 추상 행동을 표현한다.
기술 식별: 추상 요소들로부터 방향성 있는 전이 그래프를 구축하고, 이 그래프의 구조 엔트로피를 최적화하여 각 전이의 발생 확률을 계산한다. 이를 통해 전문 지식 없이도 적응형 기술 기반 학습을 수행한다.
다중 에이전트 협업: 추상 행동을 활용하여 역할 기반 학습 메커니즘을 개발하여 복잡한 협업 과제를 효과적으로 해결한다.
실험 결과, SIDM 프레임워크는 단일 에이전트와 다중 에이전트 강화 학습 알고리즘의 성능, 안정성, 샘플 효율성을 크게 향상시킨다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究