Główne pojęcia
ウェブベースのタスクを実行するオートノマスエージェントの開発と評価のための、現実的で再現可能な環境の構築
Streszczenie
本論文では、WebArenaと呼ばれる現実的で再現可能なウェブ環境を構築しました。WebArenaは、電子商取引、ソーシャルフォーラム、共同ソフトウェア開発、コンテンツ管理の4つの一般的なドメインから抽出したウェブサイトで構成されています。これらのウェブサイトは完全に機能し、リアルワールドのサイトと同様のデータと機能を備えています。
WebArenaには、ナビゲーションや計算などのユーティリティツールも組み込まれており、人間らしいタスク解決を促進します。また、ウィキペディアやマニュアルなどの知識リソースも用意されています。
さらに、WebArenaには812個の長期的なウェブベースのタスクからなるベンチマークが付属しています。これらのタスクは高レベルな自然言語命令で記述されており、人間が日常的に行うタスクをエミュレートしています。ベンチマークの評価では、タスクの機能的な正確性を検証するプログラムベースのアプローチを採用しています。
実験の結果、最先端のGPT-4ベースのエージェントでも、エンドツーエンドのタスク成功率は14.41%にとどまり、人間の78.24%と大きな差があることが分かりました。これは、ロバストで効果的なエージェントの開発にはさらなる研究が必要であることを示唆しています。
Statystyki
GPT-4ベースのエージェントのエンドツーエンドのタスク成功率は14.41%
人間の成功率は78.24%
Cytaty
"現在のエージェントは主に簡略化された合成環境で作成および評価されているため、実世界のシナリオとの乖離が生じている。"
"WebArenaは、ウェブベースのタスクを実行するオートノマスエージェントの開発と評価のための、現実的で再現可能な環境を提供する。"
"実験の結果、最先端のGPT-4ベースのエージェントでも、エンドツーエンドのタスク成功率は14.41%にとどまり、人間の78.24%と大きな差があることが分かった。"