核心概念
提出了一個新的問題 - 對話式網站導航,並介紹了一個大規模基準測試 WEBLINX 來支持這個問題。
摘要
這篇文章提出了一個新的問題 - 對話式網站導航,其中一個數位助手控制網頁瀏覽器,根據用戶指示在多輪對話中完成實際任務。為了支持這個問題,作者介紹了 WEBLINX - 一個大規模基準測試,包含 100,000 個交互和 2,300 個專家示範的對話式網站導航。
WEBLINX 涵蓋了 150 多個真實網站上的各種模式,可用於訓練和評估代理在各種情景下的能力。由於網頁包含大量信息,大型語言模型無法實時處理整個網頁。為了解決這個瓶颈,作者設計了一種檢索啟發式模型,通過排名相關元素來有效地修剪 HTML 頁面。他們使用選定的元素、截圖和操作歷史來評估各種模型的能力,從小型文本模型到專有的多模態語言模型。
實驗結果發現,較小的微調解碼器超越了最好的零樣本語言模型,但所有微調模型都難以推廣到未知網站。這突出了需要大型多模態模型能夠推廣到新的情境的重要性。作者提供了代碼、數據和模型供研究使用。
統計資料
即使最好的零樣本模型 GPT-4V 也被微調模型超越。
較小的 Sheared-LLaMA 模型的性能與更大的 LLaMA-2 13B 模型相當。
多模態模型 Fuyu-8B 的性能低於基於對話的文本模型。
所有微調模型在推廣到新網站或新類別時都存在挑戰。
引述
"即使在預測正確的意圖時,模型也可能做出糟糕的預測。"
"我們的發現突出了需要建立能夠推廣到新情境的大型多模態模型的重要性。"