本論文は深層強化学習の入門として構成されている。
まず、第3章では、非微分可能な目的関数を最大化するための2つの主要な手法を紹介する。
これらの手法は、まず固定データセットを前提とした単一ステップの問題に適用される。
第4章では、順次決定問題における課題であるデータ収集の問題を議論する。
第5章と第6章では、第3章の手法を順次決定問題に拡張する。
各手法について、基本的なアルゴリズムと共通の問題点および解決策を説明する。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Bernhard Jae... om arxiv.org 09-25-2024
https://arxiv.org/pdf/2312.08365.pdfDiepere vragen