核心概念
現実的なCRMタスクと環境を再現したベンチマーク「CRMArena」を用いた評価により、最新のLLMエージェントでさえも、現実世界のCRMシナリオの要件を満たすには能力が不足していることが明らかになった。
要約
CRMArena: 現実的なCRM環境におけるLLMエージェントの能力評価
本論文は、現実的な顧客関係管理(CRM)環境において、大規模言語モデル(LLM)エージェントの能力を評価するための新しいベンチマークであるCRMArenaを紹介することを目的とする。
Salesforceのスキーマを模倣した現実的なサンドボックス環境を構築し、LLMを用いて多様で現実的なCRMデータを生成した。
CRMの専門家と協力して、サービス・マネージャー、サービス・エージェント、サービス・アナリストの3つのペルソナにわたる9つの現実的な顧客サービス・タスクを設計した。
Salesforce Orgと統合し、ユーザーインターフェースとAPIアクセスを介して対話を可能にすることで現実的な評価環境を実現した。
Act、ReAct、関数呼び出しなど、さまざまなエージェントフレームワークとLLMを用いて、CRMArenaのタスクに対するエージェントシステムの性能を評価した。