WorkArena: Evaluating Web Agents for Knowledge Work Tasks on ServiceNow Platform

Core Concepts
Large language model-based agents are evaluated for their ability to perform knowledge work tasks on the ServiceNow platform, highlighting a performance gap and the need for further exploration.
1. Abstract: Study focuses on large language model-based agents interacting with software via web browsers. Introduction of WorkArena benchmark with 29 tasks based on ServiceNow platform. Introduction of BrowserGym for agent design and evaluation. 2. Graphical User Interfaces (UIs): UIs serve as crucial gateways to digital world but can be burdensome for users. Automated assistants can streamline tasks and ensure accessibility. 3. Application Programming Interfaces (APIs): APIs facilitate programmatic interactions but lack transparency compared to UI assistants. UI assistants offer greater transparency and human oversight. 4. Recent Advancements in Web Agents: Large language and vision models have led to rapid development of web agents. Exploration varies from simple UI commands to complex requests in enterprise software. 5. WorkArena Benchmark: Benchmark developed on ServiceNow platform with various tasks for evaluating web agents. BrowserGym introduced as an environment for designing and evaluating web agents. 6. Related Works: Early benchmarks focused on synthetic web environments, while recent works explore realistic websites. WorkArena complements existing benchmarks by focusing on real-world enterprise software applications. 7. Large Language Model (LLM) Agents: Experimental contributions limited to LLM-based web agents that rely on language models for reasoning. 8. Conclusion: WorkArena presents a challenging benchmark requiring advanced reasoning capabilities over long contexts.
ServiceNowは2023年に世界中の7,000社以上の顧客を持ち、Fortune500企業の85%を含む。 BrowserGymはPython環境で設計されたブラウザ環境で、豊富なアクションとマルチモーダル観察を提供する。
"UI assistants offer greater transparency and are more amenable to human oversight." "Our work addresses the gap in enterprise settings to improve accessibility, user experience, and worker productivity."

Deeper Inquiries


オープンソースとクローズドソースのLLM(Large Language Models)の間に生じる格差は、Webエージェントの将来的な開発にどのような影響を与える可能性がありますか? オープンソースとクローズドソースのLLM間の性能格差は、Webエージェント技術全体に大きな影響を及ぼす可能性があります。クローズドソースモデルは通常、高度で専門化された機能や最新技術を備えており、特定タスクにおいて優れたパフォーマンスを示すことが多いです。一方で、オープンソースモデルはコミュニティーから得られるフィードバックやアップデート速度など柔軟性や透明性面で利点がありますが、その精度や機能面では制限があることも考えられます。 この格差は将来的なWebエージェント技術の発展に影響を与える可能性があります。例えば、企業環境で使用されるWebエージェントシステムでは信頼性やセキュリティ上の要求事項も重要です。したがって、選択されたLLMモデル(オープンまたはクローズド)に応じてシステム設計や実装戦略を調整する必要があるかもしれません。


職場環境で自動アシストアシスタントを使用する際に生じる潜在的な課題は何ですか? 職場環境で自動アシストアシスタントを導入する際にはさまざまな課題が考えられます。例えば、 プライバシー: 機密情報へのアクセスや処理時に個人情報保護上のリスク。 セキュリティ: サイバーセキュリティ攻撃へ対処する必要。 労働者不安: 技術導入に伴う従業員不安感。 トレーニングと教育: 従業員向けトレーニングプログラム必要。 これらの課題へ対処しつつ効果的かつ責任ある方法で自動化技術を展開することが重要です。


大規模言語モデル(Large Language Models)の進歩が人間とコンピューター間相互作用(HCI)の未来にどう影響する可能性がありますか? 大規模言語モデル(LLMs)の進歩は人間とコンピューター間相互作用(HCI)分野に革命的変化をもたらす可能性があります。具体的な影響: 改善されたUX: LLMs を活用したUI アシストアシスタント等経由してより直感的・便利・パーソナライズされたインタラクション提供。 高度化したAI補助:複雑な作業支援から会話型インタフェースまで幅広くサポートし,知識効率向上. 新しいビジネスチャンス:AI 促進 HCI の普及拡大, 新市場創出. これら変更点管理しつつ社会全体受益確保重要.