מושגי ליבה
비전-언어 모델(VLM)을 활용하여 웹페이지 스크린샷을 HTML 코드로 변환할 수 있다.
תקציר
이 기술 보고서는 웹 스크린샷을 HTML 코드로 변환하는 작업을 다룹니다. 현재 VLM(비전-언어 모델)은 다양한 작업에서 발전을 이루었지만, 웹페이지 스크린샷을 HTML 코드로 변환하는 특정 과제는 충분히 탐구되지 않았습니다. 이는 적절한 고품질 데이터셋의 부재가 주된 원인이라고 합니다.
이에 저자들은 WebSight라는 합성 데이터셋을 소개합니다. WebSight는 200만 개의 HTML 코드와 해당 스크린샷 쌍으로 구성됩니다. 저자들은 이 데이터셋을 활용하여 VLM을 fine-tuning하고, 웹페이지 스크린샷을 기능적인 HTML 코드로 변환하는 모델 Sightseer를 개발했습니다.
Sightseer는 단순한 웹페이지 디자인뿐만 아니라 손으로 그린 스케치도 HTML 코드로 변환할 수 있습니다. 그러나 복잡한 레이아웃, 과도한 텍스트, 또는 훈련 데이터와 크게 다른 디자인에서는 성능이 저하됩니다. 저자들은 Tailwind CSS 사용으로 인한 어려움과 기반 언어 모델의 한계를 지적하며, 이를 개선하기 위한 전략을 모색하고 있습니다.
이 연구는 UI 개발 자동화와 no-code 솔루션 향상을 위한 AI 기반 도구 개발에 기여할 것으로 기대됩니다. 또한 저자들은 WebSight 데이터셋을 오픈소스로 공개하여 이 분야의 혁신과 연구를 촉진하고자 합니다.
סטטיסטיקה
현재 VLM은 다양한 작업에서 발전을 이루었지만, 웹페이지 스크린샷을 HTML 코드로 변환하는 특정 과제는 충분히 탐구되지 않았습니다.
WebSight는 200만 개의 HTML 코드와 해당 스크린샷 쌍으로 구성된 합성 데이터셋입니다.
Sightseer는 WebSight 데이터셋을 활용하여 fine-tuning된 VLM 모델로, 웹페이지 스크린샷을 기능적인 HTML 코드로 변환할 수 있습니다.
ציטוטים
"VLMs are commonly trained on web-scale datasets of image-text pairs (Schuhmann et al., 2022; Gadre et al., 2023) or multimodal web documents (Laurençon et al., 2023; Zhu et al., 2023). Having such a dataset of screenshots-HTML pairs as an open and accessible artifact would significantly accelerate research in this area by enabling the community to inspect the data, its limitations and improve upon the dataset."
"Remarkably, Sightseer sometimes exhibits the capability to generalize beyond its training dataset to websites that differ significantly in appearance, as evidenced by its conversion of a handwritten website sketch into functional HTML code."