Core Concepts
PromptRPAは、テキストプロンプトを理解し、それに対応する自動化操作シーケンスを自動的に生成することで、ユーザーの手動操作を大幅に削減する。
Abstract
PromptRPAは、テキストプロンプトを理解し、自動化操作シーケンスを生成する多エージェントシステムです。
情報収集段階では、分析エージェントがテキストプロンプトから機能説明を抽出し、リトリーバエージェントがオンラインチュートリアルから関連情報を収集します。
命令生成段階では、パーシングエージェントがステップ説明を標準化された命令リストに変換します。
操作マッピング段階では、グラウンディングエージェントが命令に基づいてスマートフォンの操作を実行し、モバイルセマンティクスエージェントが UI 要素の意味理解を支援します。さらに、アセスメントエージェントが予測の信頼性を評価し、必要に応じてユーザーの介入を求めます。
システムは、ユーザーの使用履歴と介入を通じて知識を蓄積し、将来のタスク実行の効率を高めます。
実験の結果、PromptRPAはベースラインと比べて成功率を22.28%から95.21%に大幅に向上させ、新しいタスクあたり平均1.66回のユーザー介入で実行できることが示されました。PromptRPAは、チュートリアル作成、スマートアシスタント、オンラインカスタマーサービスなどの分野で有望な応用が期待されます。
Stats
PromptRPAはベースラインと比べて成功率を22.28%から95.21%に大幅に向上させた。
新しいタスクあたり平均1.66回のユーザー介入で実行できた。