本論文は、ゼロ知識学習アルゴリズムであるAlphaZero、MuZero、Gumbel AlphaZero、Gumbel MuZeroの性能を、Go、オセロ、アタリゲームにおいて比較分析したものである。
まず、Go、オセロの2つの盤上ゲームでは、シミュレーション数が多いほど高い性能が得られることが示された。ただし、AlphaZeroとMuZeroのどちらが適切かは、ゲームの特性によって異なる。アタリゲームでは、MuZeroとGumbel MuZeroが有望であることが分かった。
各ゲームには固有の特性があるため、異なるアルゴリズムやシミュレーション数によって性能が大きく変わる。また、シミュレーション数を徐々に増加させる「progressive simulation」という新しい手法を提案し、盤上ゲームにおいて大幅な性能向上を実現した。
本研究では、ゼロ知識学習アルゴリズムの性能比較のためのベンチマークを提供し、アルゴリズムの選択や比較に役立つ知見を示した。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Ti-Rong Wu,H... klokken arxiv.org 04-29-2024
https://arxiv.org/pdf/2310.11305.pdfDypere Spørsmål