本文介紹了IW-BENCH,這是一個用於評估大型多模型在圖像轉網頁轉換任務中性能的基準測試。
首先,我們構建了包含1200個圖像-網頁代碼對的IW-BENCH數據集,涵蓋三個不同難度級別。為了全面評估模型的表現,我們提出了兩個新的指標:
元素準確性(Element Accuracy)用於測試模型生成的網頁元素的完整性。我們通過解析DOM樹,從標籤、文本內容、屬性、樣式、JavaScript和子元素等六個維度進行評估。
佈局準確性(Layout Accuracy)用於分析模型對元素相對位置關係的理解。我們將DOM樹轉換為一個通用的子序列,並計算其與ground truth的重疊程度。
此外,我們設計了一種五步多模態思維鏈的方法,包括:1)注入SoM提示,2)推斷元素,3)推斷佈局,4)生成網頁代碼,5)反饋和自我更新。這種方法顯著提升了模型在圖像轉網頁轉換任務中的性能。
我們對多個大型多模型進行了廣泛的實驗評估,結果表明WebSight和使用五步思維鏈的GPT4V表現最佳。隨著任務複雜度的增加,模型的整體性能有所下降,這突出了IW-BENCH的挑戰性。我們還進行了人工評估,結果與我們的指標高度相關。
總之,IW-BENCH為評估大型多模型在圖像轉網頁轉換任務中的能力提供了一個全面和嚴格的基準。我們的工作有助於推動這一領域的進一步發展。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询