Core Concepts
モバイルデバイス制御エージェントの性能を多様な設定で評価するための新しいベンチマークを提案する。
Abstract
本研究では、モバイルデバイス制御エージェントの性能を評価するための新しいベンチマーク「B-MoCA」を提案している。B-MoCAは、Androidオペレーティングシステムに基づいて構築されており、60の一般的な日常タスクを定義している。また、アイコンの配置、壁紙、言語設定などのデバイス設定をランダム化する機能を備えており、エージェントの一般化性能を評価することができる。
実験では、大規模言語モデル(LLM)ベースのエージェントや多様なモーダルLLM(MLLM)ベースのエージェント、ビジョン・言語モデルを用いたエージェントなどを評価した。これらのエージェントは単純なタスクでは高い性能を示したが、複雑なタスクでは大きな課題が残されていることが明らかになった。
B-MoCAは、モバイルデバイス制御エージェントの開発における課題を明らかにし、今後の研究の方向性を示唆するための有用なベンチマークとなることが期待される。
Stats
モバイルデバイスの設定をランダム化することで、エージェントの一般化性能を評価できる。
60の一般的な日常タスクを定義し、タスク完了の成功基準を事前に設定している。
LLMベースのエージェントは単純なタスクでは高い性能を示すが、複雑なタスクでは課題がある。
MLLMベースのエージェントは視覚情報の活用により、一部のタスクで改善が見られるが、依然として課題が残されている。
ビジョン・言語モデルを用いたエージェントは、専門家の行動を模倣できるが、未知の設定への一般化が難しい。
Quotes
"モバイルデバイス制御エージェントの開発には、デバイス設定の多様性を考慮することが重要である。"
"B-MoCAは、モバイルデバイス制御エージェントの性能を標準化された環境で評価できる有用なベンチマークとなる。"
"既存の手法には依然として課題が残されており、モバイルデバイス制御の分野での今後の研究が期待される。"