본 논문에서는 최근 각광받고 있는 멀티모달 대규모 언어 모델(MLLM)의 웹페이지 이해 및 HTML 코드 생성 능력을 평가하고 향상시키기 위해 새로운 데이터셋인 Web2Code와 평가 프레임워크를 제안합니다.
기존 MLLM은 이미지, 비디오, 오디오와 같은 다양한 모달을 이해하고 생성하는 데 탁월한 성능을 보여주었지만, 웹페이지 스크린샷을 이해하고 이에 상응하는 HTML 코드를 생성하는 데는 한계를 보였습니다. 이러한 문제를 해결하기 위해 본 연구에서는 대규모 웹페이지-코드 데이터셋인 Web2Code를 구축하고, MLLM의 웹페이지 이해 및 HTML 코드 변환 능력을 평가하기 위한 새로운 프레임워크를 제시합니다.
Web2Code는 총 1179.7k개의 웹페이지 기반 명령-응답 쌍으로 구성됩니다. 응답은 HTML 코드뿐만 아니라 웹페이지에 대한 구조화된 질문과 답변으로 구성되어 모델이 웹페이지 정보를 더 잘 이해할 수 있도록 도와줍니다. 데이터셋 수집을 위해 GPT-3.5 및 GPT-4를 사용하여 기존 데이터(예: WebSRC)를 정제하고 HTML 코드로 완전히 새로운 웹페이지를 생성했습니다.
MLLM의 웹페이지 이해 및 HTML 구문 분석 성공 여부를 평가하기 위해 웹페이지 이해 벤치마크(WUB)와 웹페이지 코드 생성 벤치마크(WCGB)라는 두 가지 작업을 제안합니다. WUB는 웹페이지에 대한 질문에 답하는 모델의 능력을 테스트하고, WCGB는 웹페이지의 HTML 코드를 생성하는 모델의 능력을 테스트합니다. 특히 WCGB의 경우 기존 텍스트 유사도 지표가 생성된 코드의 충실도를 평가하기에 충분하지 않다는 것을 발견하고, 대신 출력 HTML을 웹페이지 스크린샷으로 다시 렌더링하고 GPT-4V를 사용하여 결과 웹페이지의 품질을 평가하는 방법을 제안합니다.
제안된 데이터셋의 유용성을 입증하기 위해 Web2Code 데이터셋을 사용하여 LLaVA 스타일의 MLLM을 학습했습니다. 그 결과, Web2Code 데이터셋을 사용한 미세 조정은 MLLM의 이미지-HTML 코드 변환 능력을 향상시킬 뿐만 아니라 웹페이지 스크린샷 이해에 대한 모델의 인식 및 추론 능력도 향상시키는 것으로 나타났습니다.
본 논문에서 제안된 Web2Code 데이터셋과 평가 프레임워크는 MLLM의 웹페이지 이해 및 HTML 코드 생성 능력을 향상시키는 데 크게 기여할 것으로 기대됩니다. 또한, 본 연구는 콘텐츠 생성 및 작업 자동화를 위한 가상 비서 역할을 하는 기반 모델을 개발하는 데 도움이 될 것입니다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究