본 논문은 강화학습(RL)에서 구조 정보를 활용하는 다양한 방법론을 통합적으로 다룬다. RL은 게임, 로봇 조작, 화학 반응 최적화 등 다양한 순차적 의사결정 및 제어 문제에 기여해왔지만, 환경 변화에 따른 성능 저하, 데이터 효율성 부족, 일반화 능력 제한, 안전 보장 부재, 해석 가능성 부족 등의 문제에 직면해왔다.
이러한 문제를 해결하기 위해 연구자들은 일반화와 배포 가능성 향상을 위한 방법을 개발해왔다. 구조 정보를 학습 과정에 포함시키는 것이 이 두 가지 목표를 달성하는 데 도움이 될 수 있다.
본 논문에서는 구조 정보를 네 가지 측면(데이터 효율성, 일반화, 해석 가능성, 안전성)에서 활용하는 방법을 설명한다. 또한 구조 정보를 나타내는 분해 가능성의 네 가지 대표적인 유형(잠재적, 요인화, 관계적, 모듈화)을 정의하고, 이를 학습 파이프라인에 포함시키는 일곱 가지 패턴(추상화, 증강, 보조 최적화, 보조 모델, 창고, 환경 생성, 명시적 설계)을 제시한다. 이를 통해 구조 정보 활용에 대한 통합적인 틀을 제공하고, RL 연구의 설계 패턴 관점을 제안한다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Aditya Mohan... في arxiv.org 04-26-2024
https://arxiv.org/pdf/2306.16021.pdfاستفسارات أعمق