本論文では、LLMベースのAgent-Proを提案している。Agent-Proは、対話型ゲームにおいて以下のような特徴を持つ:
自己と環境に関する動的な信念を構築し、これに基づいて意思決定を行う。これにより、不確実な状況でも一貫性のある行動を取ることができる。
過去の失敗した経験を振り返り、自身の非合理的な信念を特定し、修正する。これらの反省点を行動指針とワールドモデリングに反映させることで、より良い行動方針を生成する。
深さ優先探索に基づくポリシー最適化を行い、徐々に行動方針を改善していく。
実験では、ブラックジャックとリミテッドテキサスホールデムの2つのゲームで評価を行った。その結果、Agent-Proは、バニラのLLMや専門モデルを大きく上回る成績を収めることができた。特に、ゲームの進行に合わせて柔軟に行動を変化させたり、相手の心理を読んでブラフを仕掛けるなど、人間のような高度な戦略を学習できることが示された。
このように、Agent-Proは対話型ゲームにおいて学習と進化を遂げることができ、現実世界の競争、交渉、セキュリティなどの複雑な状況にも応用できる可能性がある。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania