Core Concepts
POK´ELLMONは、LLMを活用して人間レベルのポケモンバトル能力を実現した初めてのエージェントである。
Abstract
本論文では、LLMを用いてポケモンバトルに自律的に取り組むエージェント「POK´ELLMON」を開発した。POK´ELLMONは以下の3つの主要な戦略を採用している:
インコンテキスト強化学習(ICRL)
バトル中のテキストベースのフィードバックを即座に活用し、ポリシーを逐次的に改善する
攻撃の効果や相手ポケモンの特性などの情報を学習し、適切な行動を選択できるようになる
知識増強型生成(KAG)
ポケモンの属性関係やわざの効果などの外部知識を活用し、幻覚を抑制する
適切なタイミングと方法で行動を選択できるようになる
一貫した行動生成
強力な相手に直面したときに、パニックを起こして行動が不安定になるのを防ぐ
最も一貫性のある行動を選択することで、落ち着いて対応できるようになる
オンラインバトルの結果、POK´ELLMONは人間プレイヤーに匹敵する戦略と判断力を発揮し、ラダー大会で49%、招待バトルで56%の勝率を達成した。一方で、人間プレイヤーの消耗戦略や欺瞞的な戦術に対する脆弱性も明らかになった。今後の課題として、長期的な計画性の向上や、相手の行動予測などが挙げられる。
Stats
ラダー大会での勝率は49%、招待バトルでの勝率は56%であった。