Core Concepts
ByteRLは収集可能なカードゲームで最強のエージェントだが、その戦略には弱点がある。
Abstract
本論文では、収集可能なカードゲームの一種であるLegendsofCodeandMagic(LOCM)におけるByteRLエージェントの脆弱性を調査した。
まず、行動模倣学習を用いてByteRLの戦略を学習したところ、ByteRLとほぼ同等の性能を持つエージェントを構築できた。これは、ByteRLの戦略に一定の弱点があることを示唆している。
次に、強化学習によるファインチューニングを行った。固定デッキプールサイズを段階的に増やしながら学習を進めたところ、ByteRLを上回るエージェントを構築できた。特に、事前の行動模倣学習を行った場合は、強化学習のみの場合に比べて学習が効率的に進んだ。
これらの結果から、ByteRLは収集可能なカードゲームにおいて強力なエージェントではあるが、その戦略には脆弱な部分が存在することが明らかになった。今後は、デッキ構築段階の学習や、より複雑なニューラルネットワーク構造の検討などを行い、ByteRLを完全に凌駕するエージェントの構築を目指す。
Stats
収集可能なカードゲームには膨大な状態空間が存在し、その全てを列挙することは不可能である。
ByteRLは、この問題に対してOptimistic Smooth Fictitious Self-playアルゴリズムを用いて対処している。
Quotes
「ByteRLは、Hearthstoneの最強プレイヤーを倒すことができるが、Legends of Code and Magicでは非常に脆弱である。」