本研究は、ユーザーの自然言語指示に基づいてスマートフォンデバイスを制御するための視覚言語モデル(VLM)の開発に焦点を当てている。
主な取り組みは以下の通り:
2つのタイプのVLMを検討した。1つは事前に言語モデルと視覚エンコーダを訓練し、それらを組み合わせたもの(LLama+ViT)。もう1つは、事前に視覚言語タスクで訓練されたオープンソースのVLMモデル(Qwen-VL)を使用したもの。
スクリーンショットの履歴と、自然言語で表現されたアクション履歴を入力として使用することで、モデルの文脈理解を向上させた。
デバイス操作のアクションを自然言語で表現する方法を定義した。これにより、言語モデルがアクションを容易に理解・生成できるようになった。
AITW ベンチマークデータセットを使用して、提案手法の有効性を検証した。その結果、最良のモデルが新しい最高精度を達成した。
このように、事前訓練されたVLMの活用と、スクリーンショットとアクションの履歴の活用、そして自然言語でのアクション表現が、スマートフォンデバイスの自然言語制御に有効であることが示された。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Nicolai Dork... ב- arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08755.pdfשאלות מעמיקות