這篇文章提出了一個新的問題 - 對話式網站導航,其中一個數位助手控制網頁瀏覽器,根據用戶指示在多輪對話中完成實際任務。為了支持這個問題,作者介紹了 WEBLINX - 一個大規模基準測試,包含 100,000 個交互和 2,300 個專家示範的對話式網站導航。
WEBLINX 涵蓋了 150 多個真實網站上的各種模式,可用於訓練和評估代理在各種情景下的能力。由於網頁包含大量信息,大型語言模型無法實時處理整個網頁。為了解決這個瓶颈,作者設計了一種檢索啟發式模型,通過排名相關元素來有效地修剪 HTML 頁面。他們使用選定的元素、截圖和操作歷史來評估各種模型的能力,從小型文本模型到專有的多模態語言模型。
實驗結果發現,較小的微調解碼器超越了最好的零樣本語言模型,但所有微調模型都難以推廣到未知網站。這突出了需要大型多模態模型能夠推廣到新的情境的重要性。作者提供了代碼、數據和模型供研究使用。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Xing... lúc arxiv.org 09-12-2024
https://arxiv.org/pdf/2402.05930.pdfYêu cầu sâu hơn