核心概念
Ferret-UI 2 是一個多模態大型語言模型,旨在透過高解析度圖像編碼、多平台支援和改進的資料生成來理解和與各種平台上的用戶介面進行交互。
文獻資訊
Zhangheng Li, Keen You, Haotian Zhang, Di Feng, Harsh Agrawal, Xiujun Li, Mohana Prasad Sathya Moorthy, Jeff Nichols, Yinfei Yang, Zhe Gan. (2024). FERRET-UI 2: MASTERING UNIVERSAL USER INTERFACE UNDERSTANDING ACROSS PLATFORMS. arXiv preprint arXiv:2410.18967.
研究目標
本研究旨在開發一種多模態大型語言模型 (MLLM), Ferret-UI 2,用於理解和與各種平台上的用戶介面進行交互,解決現有模型在平台多樣性、解析度變化和資料限制方面的挑戰。
方法
Ferret-UI 2 建立在 Ferret-UI 的基礎上,並引入了三個關鍵創新:
多平台支援: 除了 iPhone 和 Android 之外,還支援 iPad、網頁和 AppleTV 等平台。
動態高解析度圖像編碼: 透過自適應網格化方法支援高解析度圖像編碼,在 UI 截圖的原始解析度下保持感知能力。
高品質多模態訓練資料生成: 利用 GPT-4o 和基於標記集的視覺提示生成高品質的訓練資料,用於基本任務和進階任務。
主要發現
Ferret-UI 2 在多個平台(包括 iPhone、Android、iPad、網頁和 AppleTV)上的 UI 理解任務中優於 Ferret-UI。
Ferret-UI 2 在不同平台上表現出強大的零樣本遷移能力。
與 GPT-4o 相比,Ferret-UI 2 在進階任務上取得了更高的 GPT-4o 分數,並在 GUIDE 基準測試中取得了更高的 IoU 分數。
主要結論
Ferret-UI 2 是一個強大的多模態大型語言模型,透過高解析度圖像編碼、多平台支援和改進的資料生成,顯著提高了 UI 理解和交互能力,為通用 UI 理解奠定了堅實的基礎。
意義
本研究對於開發能夠理解和與各種平台上的用戶介面進行交互的通用型 AI 代理具有重要意義。
局限性和未來研究方向
未來的工作將集中於整合更多平台類型。
未來將致力於構建一個用於通用 UI 導航的通用代理。
統計資料
Ferret-UI 2 with Llama-3-8B 在進階任務上取得了 89.73 的 GPT-4o 分數,超過 Ferret-UI 43.92 分,超過 GPT-4o 12.0 分。
Ferret-UI 2 with Llama-3-8B 在 GUIDE 基準測試中取得了 55.78 的 IoU 分數,表明其 grounding 能力優於其他模型。
Ferret-UI 2 with Vicuna-13B 在進階任務上取得了 41.71 的 Multi-IoU 分數。
GPT-4o 在基本任務中的 referring (56.47) 和 grounding (12.14) 分數較低,表明其在細粒度 UI 理解方面存在困難。