핵심 개념
문서, 웹페이지, 표, 차트, 자연 이미지 등 다양한 텍스트 풍부 이미지에 대한 구조 이해 능력을 향상시키기 위해 통합 구조 학습을 제안한다.
초록
이 연구에서는 문서, 웹페이지, 표, 차트, 자연 이미지 등 다양한 텍스트 풍부 이미지에 대한 구조 이해 능력을 향상시키기 위해 통합 구조 학습을 제안한다.
구체적으로:
- 구조 인식 파싱 과제와 다중 수준 텍스트 위치 과제를 포함하는 통합 구조 학습을 설계하였다.
- 텍스트와 레이아웃 정보를 효과적으로 유지하는 H-Reducer라는 새로운 비전-텍스트 모듈을 제안하였다.
- 통합 구조 학습을 지원하기 위해 DocStruct4M이라는 포괄적인 학습 데이터셋을 구축하였다.
- 문서 이해 추론 능력을 향상시키기 위해 DocReason25K라는 고품질 지시 학습 데이터셋을 구축하였다.
- DocOwl 1.5와 DocOwl 1.5-Chat은 10개의 문서 이해 벤치마크에서 최신 성과를 달성하였다.
통계
560 million 및 70 million은 각각 Twitter와 Pinterest의 활성 사용자 수이다.
2030년 관세 수입 증가 전망은 100이다.
12-17세 연령대 중 5%가 인터넷을 사용하지 않았다.
이라크 피부민 시민의 비율은 0.19이다.
인용구
"Structure information is critical for understanding the semantics of text-rich images, such as documents, tables, and charts."
"To better encode structure information, we design a simple and effective vision-to-text module H-Reducer, which can not only maintain the layout information but also reduce the length of visual features by merging horizontal adjacent patches through convolution, enabling the LLM to understand high-resolution images more efficiently."
"Our Unified Structure Learning comprises structure-aware parsing tasks and multi-grained text localization tasks across 5 domains: document, webpage, table, chart, and natural image."