READOC은 PDF 문서를 입력으로 받아 구조화된 Markdown 텍스트로 변환하는 실용적이고 종합적인 문서 구조 추출 작업을 정의한다.
HRVDA는 고해상도 문서 이미지를 직접 처리할 수 있는 멀티모달 대형 언어 모델로, 내용 필터링 메커니즘과 지시 필터링 모듈을 통해 효율적인 모델 학습 및 추론을 달성합니다.
문서 이미지를 입력으로 받아 텍스트와 레이아웃 정보를 통합적으로 생성하는 사전 학습 모델을 제안한다.
문서 이미지 이해를 위해 기존 문서 이해 모델과 대규모 언어 모델을 결합한 LayoutLLM 모델을 제안한다. 이를 통해 다양한 문서 분석 작업을 단일 모델로 유연하게 수행할 수 있다.
대규모 언어 모델과 문서 이해 모델을 결합하여 단일 모델로 다양한 문서 분석 작업을 수행할 수 있는 새로운 접근법을 제안한다.