本研究では、LLMエージェントの戦略的計画と実行スキルを評価するための新しいシミュレーション環境「AUCARENA」を提案している。AUCAREMAは、競売という動的で予測不可能な状況を模擬し、資源管理、リスク管理、競争的行動などに関連する様々なスキルを評価することができる。
具体的には以下のような内容が含まれている:
競売の設定: 競売の参加者(入札者)、オークショナー、商品リストなどから構成される。入札者はLLMエージェントとして実装されている。
入札者エージェントの設計: 信念-欲求-意図(BDI)モデルに基づき、計画、入札、信念更新、再計画の4つの機能を持つ。これにより、戦略的な意思決定、新情報への適応、リアルタイムの意思決定が可能となる。
実験と分析: 様々なLLMエージェントを用いて競売シミュレーションを行い、その戦略的計画、実行、適応性を分析している。GPT-4などの優れたモデルでも長期的な戦略計画では必ずしも勝利できず、LLMの設計改善と継続的な評価の重要性が示された。
戦略と行動動態の分析: 計画の可視化、入札行動の分析、計画と実行の整合性の分析などから、LLMエージェントの戦略的行動を詳細に検討している。
モジュール分析: 計画・再計画機能の有無や、利益最大化vs.アイテム獲得の目的の違いが、エージェントの競売パフォーマンスに与える影響を分析している。
以上のように、AUCAREMAは LLMエージェントの戦略的意思決定スキルを評価するための新しい枠組みを提供し、LLMの可能性と課題を明らかにしている。
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Jiangjie Che... : arxiv.org 04-03-2024
https://arxiv.org/pdf/2310.05746.pdfDaha Derin Sorular