Core Concepts
スマートフォンGUI自動化の包括的な認知能力を持つCoCo-Agentは、環境認識と行動応答を向上させる革新的なアプローチを提供します。
Abstract
CoCo-Agentは、環境認識と行動予測の2つのアプローチでGUI自動化パフォーマンスを改善。
現在の重要な課題は、強力なLLMへの依存と不十分なGUI環境モデリング。
CEPはGUI認識を促進し、CAPは複雑な行動予測を分解する。
CoCo-AgentはAITWおよびMETA-GUIベンチマークで最先端のパフォーマンスを達成。
導入
GUI自動化におけるLLMsの役割と重要性に言及。
強力なLLMsによるエージェント構築が現実的使用において問題点を示す。
方法論
GUI自動化タスクの定式化とCoCo-Agentの技術設計(CEPとCAP)について詳細に説明。
実験結果
AITWおよびMETA-GUIデータセットでの実験結果。CoCo-AgentがSOTAパフォーマンスを達成。
分析
環境要素や視覚能力、将来の行動予測、データセット特徴に関する詳細な分析。
Stats
Large language models (LLMs) have shown remarkable potential as human-like autonomous language agents to interact with real-world environments, especially for graphical user interface (GUI) automation.
Our agent achieves new state-of-the-art performance on AITW and META-GUI benchmarks, showing promising abilities in realistic scenarios.
Quotes
"Large language models (LLMs) have shown remarkable potential as human-like autonomous language agents."
"Our agent achieves new state-of-the-art performance on AITW and META-GUI benchmarks."