オフライン学習は、ゼロサムゲームにおいて効率的な学習を可能にする。異なるデモンストレーターによって生成されたオフラインデータセットから戦略表現を取得し、それを活用してエキスパートポリシーを学習する。プロセスは3つの主要手順で構成される:戦略表現の取得、戦略表現から利用度の推定、利用度拡張型オフライン学習。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Shiqi Lei,Ka... lúc arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.18617.pdfYêu cầu sâu hơn