Conceitos Básicos
Generative AI advancements enable automating front-end engineering with multimodal LLMs.
Resumo
最近の進歩により、多様な実世界のWebページをテストケースとして使用したDesign2Codeベンチマークが導入されました。この研究では、GPT-4VやGemini Pro Visionなどの現在の多モーダルLLMがどれだけ遠くまで自動化を実現できるかを評価しました。結果は、GPT-4Vが他のモデルよりも優れており、WebSight VLM-8Bと比較しても優れた性能を示しました。さらに、人間の評価では49%のAI生成Webページが元の参照Webページと交換可能であり、64%は元の参照Webページよりも優れていると判断されました。
Estatísticas
484 diverse real-world webpages as test cases.
GPT-4V performs the best on this task compared to other models.
In 49% of cases, GPT-4V generated webpages can replace the original reference webpages in terms of visual appearance and content.
In 64% of cases, GPT-4V generated webpages are considered better than the original reference webpages.
Citações
"Both human evaluation and automatic metrics show that GPT-4V performs the best on this task compared to other models."
"Our fine-grained break-down metrics indicate that open-source models mostly lag in recalling visual elements from the input webpages and in generating correct layout designs."