이 글은 강화 학습 기술을 소개하고 있다. 먼저 감독 학습 설정에서 비차별화 목표를 최적화하는 방법을 설명한다. 이를 위해 가치 학습과 확률적 정책 경사 기법을 소개한다. 이어서 순차적 의사 결정 문제로 확장하여 오프-정책 강화 학습과 온-정책 강화 학습을 다룬다.
가치 학습에서는 행동-가치 함수를 학습하여 최적의 행동을 선택한다. 이는 비차별화 보상 함수를 직접 예측하는 방식이다. 확률적 정책 경사 기법은 보상에 비례하여 정책을 업데이트한다. 이는 보상 함수의 미분이 필요하지 않다는 장점이 있다.
순차적 의사 결정 문제에서는 데이터 수집 과정이 중요하다. 오프-정책 강화 학습은 과거 정책으로 수집한 데이터를 재사용하여 효율성을 높인다. 온-정책 강화 학습은 현재 정책으로 데이터를 수집하여 학습한다. 각각의 접근법은 장단점이 있다.
이 글은 강화 학습의 핵심 개념을 이해하는 데 도움이 될 것이다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Bernhard Jae... alle arxiv.org 09-25-2024
https://arxiv.org/pdf/2312.08365.pdfDomande più approfondite