本論文では、収集可能なカードゲームの一種であるLegendsofCodeandMagic(LOCM)におけるByteRLエージェントの脆弱性を調査した。
まず、行動模倣学習を用いてByteRLの戦略を学習したところ、ByteRLとほぼ同等の性能を持つエージェントを構築できた。これは、ByteRLの戦略に一定の弱点があることを示唆している。
次に、強化学習によるファインチューニングを行った。固定デッキプールサイズを段階的に増やしながら学習を進めたところ、ByteRLを上回るエージェントを構築できた。特に、事前の行動模倣学習を行った場合は、強化学習のみの場合に比べて学習が効率的に進んだ。
これらの結果から、ByteRLは収集可能なカードゲームにおいて強力なエージェントではあるが、その戦略には脆弱な部分が存在することが明らかになった。今後は、デッキ構築段階の学習や、より複雑なニューラルネットワーク構造の検討などを行い、ByteRLを完全に凌駕するエージェントの構築を目指す。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor