Core Concepts
Durch die Feinjustierung eines leistungsfähigen Basis-VLM auf dem WebSight-Datensatz können Webseiten-Screenshots effizient in funktionsfähigen HTML-Code umgewandelt werden, um die Entwicklung von No-Code-Lösungen zu beschleunigen.
Abstract
Dieser technische Bericht stellt den WebSight-Datensatz vor, eine umfassende synthetische Sammlung von 2 Millionen Beispielen für HTML-Code, die mit entsprechenden Screenshots gepaart sind. Durch die Feinjustierung eines leistungsfähigen Basis-VLM auf diesem Datensatz entstand das spezialisierte Modell Sightseer, das die Fähigkeit zeigt, Webseiten-Screenshots in funktionsfähigen HTML-Code zu übersetzen.
Der Bericht beschreibt den zweistufigen Prozess zur Erstellung des WebSight-Datensatzes. Zunächst wurde ein kleineres Sprachmodell verwendet, um eine Vielzahl an Website-Konzepten und -Designs zu generieren. Diese Entwürfe dienten dann als Grundlage für die Erstellung des finalen HTML-Codes mithilfe eines größeren, vorwiegend auf Programmiersprachen trainierten Sprachmodells. Um die Vielfalt der Designs zu erhöhen und gleichzeitig die Qualität des generierten Codes sicherzustellen, wurde Tailwind CSS anstelle von traditionellem CSS verwendet.
Die Evaluation zeigt, dass Sightseer in der Lage ist, einfache Webseiten-Designs präzise in HTML-Code umzuwandeln. Allerdings treten bei komplexeren Layouts, übermäßigem Text oder stark von den Trainingsdaten abweichenden Designs Schwierigkeiten auf. Die Autoren vermuten, dass eine Vortrainierung des Basis-VLM mit reinem HTML-Code und Tailwind CSS die Übersetzungsgenauigkeit weiter verbessern könnte.
Insgesamt stellt der WebSight-Datensatz und das darauf feinabgestimmte Sightseer-Modell einen wichtigen Schritt zur Automatisierung der Umwandlung von Webseiten-Screenshots in HTML-Code dar, um die Entwicklung von No-Code-Lösungen zu beschleunigen. Durch die Veröffentlichung des Datensatzes soll die Forschung in diesem Bereich weiter vorangetrieben werden.
Stats
Keine relevanten Statistiken oder Kennzahlen im Originaltext enthalten.
Quotes
Keine auffallenden Zitate im Originaltext enthalten.