Kernekoncepter
Unsupervised learning techniques enhance offline learning efficiency in zero-sum games.
Resumé
オフライン学習は、ゼロサムゲームにおいて効率的な学習を可能にする。異なるデモンストレーターによって生成されたオフラインデータセットから戦略表現を取得し、それを活用してエキスパートポリシーを学習する。プロセスは3つの主要手順で構成される:戦略表現の取得、戦略表現から利用度の推定、利用度拡張型オフライン学習。
Statistik
オフラインデータセット内の各トラジェクトリーから戦略表現を取得する。
データセット内の個々のトラジェクトリーから利用度を推定する。
利用度拡張型オフライン学習アルゴリズムを実装して性能向上を図る。