본 논문은 다음과 같은 내용을 다룹니다:
재현 커널 힐버트 공간에서 정의된 새로운 비모수 벨만 매핑을 제안합니다. 이 매핑은 재현 커널 힐버트 공간의 풍부한 근사 특성을 활용하고, 데이터의 통계적 가정 없이 작동하며, 마르코프 의사결정 과정의 전이 확률에 대한 지식이 필요 없고, 학습 데이터가 없어도 작동할 수 있습니다.
제안된 벨만 매핑의 자유 매개변수를 설계하기 위한 변분 프레임워크를 제공하며, 이를 통해 기존의 다양한 벨만 매핑 설계가 특수 사례로 도출됨을 보여줍니다.
제안된 벨만 매핑은 온라인 또는 시간 적응형 학습에 적합한 계산량이 적은 연산을 가능하게 합니다.
제안된 벨만 매핑을 활용하여 아웃라이어에 강건한 적응형 필터링 문제를 해결하는 강화 학습 알고리즘을 제시합니다. 이 알고리즘은 아웃라이어의 통계에 대한 사전 정보와 학습 데이터 없이도 동작할 수 있습니다.
합성 데이터에 대한 수치 실험 결과, 제안된 프레임워크가 기존의 강화 학습 및 비강화 학습 기법에 비해 대부분의 경우 우수한 성능을 보임을 확인하였습니다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Yuki Akiyama... о arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20020.pdfГлибші Запити