본 연구는 강화 학습 알고리즘의 효과성을 높이기 위해 구조 정보 원리에 기반한 새로운 의사결정 프레임워크 SIDM을 제안한다.
SIDM은 다음과 같은 핵심 구성 요소를 포함한다:
상태와 행동 그래프 구축: 관측과 행동 간 유사성을 측정하여 가중치 있는 무향 그래프를 구축한다. 이때 중요하지 않은 간선은 제거된다.
계층적 추상화: 그래프의 구조 엔트로피를 최소화하여 상태와 행동을 계층적으로 추상화한다. 각 커뮤니티의 가중치 평균을 사용하여 추상 상태와 추상 행동을 표현한다.
기술 식별: 추상 요소들로부터 방향성 있는 전이 그래프를 구축하고, 이 그래프의 구조 엔트로피를 최적화하여 각 전이의 발생 확률을 계산한다. 이를 통해 전문 지식 없이도 적응형 기술 기반 학습을 수행한다.
다중 에이전트 협업: 추상 행동을 활용하여 역할 기반 학습 메커니즘을 개발하여 복잡한 협업 과제를 효과적으로 해결한다.
실험 결과, SIDM 프레임워크는 단일 에이전트와 다중 에이전트 강화 학습 알고리즘의 성능, 안정성, 샘플 효율성을 크게 향상시킨다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Xianghua Zen... a las arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09760.pdfConsultas más profundas