대형 언어 모델의 강력한 문서 이해 능력을 활용하되, 계산 자원 요구량을 줄이기 위해 지식 증류 기법을 활용하여 효율적인 문서 이해 모델을 개발하였다.
KVP10k는 비즈니스 문서에서 사전 정의된 키 없이 키-값 쌍을 추출하는 새로운 벤치마크 데이터셋이다.
파리 결혼 기록에서 118개의 다양한 정보를 자동으로 추출하기 위한 새로운 데이터셋과 모델 제안
DocumentCLIP은 문서 내 그림과 텍스트 간 상호작용을 이해하고 연결하는 새로운 대비 학습 프레임워크이다.
시각적 및 공간적 특징이 텍스트 자체만큼 중요하므로, 이를 활용하여 시각적으로 풍부한 문서에서의 관계 추출 성능을 향상시킬 수 있다.
TextHawk는 문서 지향 작업을 위해 특별히 설계된 멀티모달 대형 언어 모델로, 세부적인 이미지 인지와 정보 압축 능력을 향상시켰다.
문서 레이아웃 정보를 효과적으로 활용하여 문서 이해 성능을 향상시키는 새로운 방법인 LayoutLLM을 제안한다.
문서, 웹페이지, 표, 차트, 자연 이미지 등 다양한 텍스트 풍부 이미지에 대한 구조 이해 능력을 향상시키기 위해 통합 구조 학습을 제안한다.
GRAM은 기존의 단일 페이지 문서 이해 모델을 확장하여 다중 페이지 문서에 대한 이해 능력을 향상시킨다. 페이지 수준의 이해와 문서 수준의 추론을 결합하여 효과적으로 문서 전체에 걸친 정보 흐름을 달성한다.