本論文では、線形MDPにおける模倣学習のための新しいアルゴリズムILARLを提案しています。従来の手法では、探索に関する強い仮定が必要でしたが、ILARLではこの仮定を必要とせず、ϵに関する依存度も改善しています。
具体的には以下のような特徴があります:
また、有限時間設定でさらに強い結果を得るアルゴリズムBRIGも提案しています。
数値実験では、ILARLが他の手法と比べて専門家軌道数とMDP軌道数の両方で効率的であることを示しています。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Luca Viano,S... kl. arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.02181.pdfDybere Forespørgsler