본 연구 논문에서는 웹페이지 UI에서 추출한 풍부한 텍스트 정보를 활용하여 멀티모달 대규모 언어 모델(MLLM)의 시각적 이해 능력을 향상시키는 방법을 제시합니다.
텍스트와 시각 정보가 밀접하게 통합된 환경을 이해하는 능력인 텍스트 중심 시각적 이해는 인간에게 필수적인 인지 능력이며, 문서 처리, 웹 탐색, 차트 해석, 텍스트 기반 시각적 추론과 같은 복잡한 텍스트-시각 상호 작용이 필요한 작업을 수행하는 MLLM에게도 중요합니다.
기존 웹 콘텐츠를 활용한 멀티모달 모델은 규칙 기반 이미지 추출 방식의 잡음 및 맥락 부족, 스크린샷을 단순화된 HTML 구조로 변환하는 방식의 일반화 제한, GPT-4와 같은 모델의 웹 이미지 캡션 생성 시 텍스트와 시각적 요소 간의 풍부한 상호 작용 간과 등의 한계를 가지고 있습니다.
본 연구에서는 웹페이지 UI를 활용하여 텍스트 기반 LLM에서 일반적인 멀티모달 명령어를 합성하는 새로운 접근 방식을 제시합니다. 텍스트 기반 LLM은 직접적인 시각적 입력 없이도 웹페이지의 텍스트 표현을 효과적으로 처리할 수 있습니다.
본 연구에서는 100만 개의 웹사이트에서 추출한 730만 개의 샘플을 포함하는 MultiUI 데이터셋을 구축했습니다. MultiUI는 다양한 멀티모달 작업과 UI 레이아웃을 포괄하며, 웹 페이지의 스크린샷과 접근성 트리를 사용하여 주요 웹 요소 및 레이아웃 구조를 캡처하고 관련 없는 데이터를 필터링하면서 웹 UI의 핵심 구조를 보존합니다.
MultiUI로 훈련된 모델은 웹 UI 작업뿐만 아니라 문서 이해, OCR, 차트 해석과 같은 UI 이외의 영역에도 놀라울 정도로 잘 일반화되는 것을 확인했습니다.
구체적으로 MultiUI로 훈련된 모델은 VisualWebBench에서 최대 48%, Mind2Web 웹 에이전트 데이터셋에서 작업 정확도가 19.1% 향상되는 등 웹 UI 작업에서 뛰어난 성능을 보였습니다. 또한 문서 이해(DocVQA), OCR(OCRBench), 차트 해석(ChartQA) 작업에서도 해당 분야에 특화된 모델보다 뛰어난 성능을 보여주었습니다.
본 연구는 웹 UI 데이터가 텍스트 중심 시각적 이해 능력을 향상시키는 강력한 리소스임을 보여줍니다. MultiUI 데이터셋을 통해 훈련된 MLLM은 UI 작업뿐만 아니라 다양한 시나리오에서 뛰어난 성능을 발휘할 수 있으며, 이는 더욱 복잡한 에이전트 작업 및 UI 이외의 영역을 포함합니다.
본 연구는 웹 UI 데이터의 잠재력을 강조하고 MLLM의 텍스트 중심 시각적 이해 능력을 향상시키는 새로운 방향을 제시합니다. MultiUI 데이터셋은 향후 다양한 멀티모달 연구에 활용될 수 있으며, 궁극적으로 인간과 컴퓨터 간의 상호 작용을 개선하는 데 기여할 수 있습니다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések