TextHawk는 문서 지향 작업을 위해 특별히 설계된 멀티모달 대형 언어 모델이다. 기존 멀티모달 대형 언어 모델들은 문서 지향 작업에 적합하지 않았는데, 이는 문서 이미지의 높은 해상도와 정보 밀도로 인한 어려움 때문이다.
TextHawk는 네 가지 핵심 구성 요소를 통해 효율적인 세부 인지 능력을 탐구한다. 첫째, ReSampling and ReArrangement (ReSA) 모듈을 통해 문서 텍스트의 중복성을 줄이고 계산 비용을 낮춘다. 둘째, Scalable Positional Embeddings (SPEs)를 제안하여 다양한 이미지 크기에 대한 확장성을 유지한다. 셋째, Query Proposal Network (QPN)를 도입하여 서로 다른 하위 이미지 간 쿼리를 동적으로 초기화한다. 넷째, Multi-Level Cross-Attention (MLCA) 메커니즘을 설계하여 문서 이미지의 계층 구조와 의미 관계를 활용한다.
또한 Gemini Pro를 통해 문서 지향 작업을 위한 새로운 지침 튜닝 데이터셋을 생성했다. 실험 결과, TextHawk는 문서 벤치마크와 일반 벤치마크 모두에서 최신 기술을 능가하는 성과를 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ya-Qi Yu,Min... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09204.pdfDeeper Inquiries