核心概念
GUIDE (Graphical User Interface Data for Execution) データセットは、ロボティックプロセスオートメーション (RPA) の高度化を目的として開発された。このデータセットは、様々なウェブサイトからの画像、タスク説明、アクション履歴、推論過程、次のアクションなどの情報を網羅的に収集・注釈したものである。これにより、LLMがGUIを理解し、タスクを自動化する能力を向上させることが期待される。
摘要
本論文では、ロボティックプロセスオートメーション (RPA) の高度化を目的とした新しいデータセット「GUIDE」を紹介する。
GUIDE データセットの特徴は以下の通り:
- 様々なウェブサイト(Apollo、Gmail、Calendar、Canva等)からの画像、タスク説明、アクション履歴、推論過程、次のアクションなどの情報を網羅的に収集
- 複数のOSやブラウザ、ディスプレイ形式に対応
- 複数のアノテーターによって収集されており、デザインの多様性を反映
このデータセットを活用することで、LLMがGUIを理解し、タスクを自動化する能力が向上することが期待される。具体的には、次のアクションの予測や、アクションの位置合わせ(グラウンディング)の精度が高まる。
また、本論文では、GUIDE データセットを活用したRPAモデル「V-Zen」の開発も紹介している。V-Zenは、複数のウェブサイトにまたがるタスクの自動化を実現している。
GUIDE データセットの開発は、RPA分野における LLMの活用を大きく前進させる重要な取り組みである。今後、さらなる分野の拡大や、例外処理への対応など、データセットの改善が期待される。
統計資料
本データセットには、62.67%がApollo、3.43%がGmail、10.98%がCalendar、22.92%がCanvaからの情報が含まれている。
各データエントリには、画像、タスク説明、最後に実行したアクション、推論過程、次に実行するアクションと、そのアクションを実行する位置情報が含まれている。
引述
"GUIDE データセットは、ロボティックプロセスオートメーション (RPA) の高度化を目的として開発された。"
"GUIDE データセットは、様々なウェブサイトからの画像、タスク説明、アクション履歴、推論過程、次のアクションなどの情報を網羅的に収集・注釈したものである。"
"GUIDE データセットを活用することで、LLMがGUIを理解し、タスクを自動化する能力が向上することが期待される。"