Concepts de base
KVP10k는 비즈니스 문서에서 사전 정의된 키 없이 키-값 쌍을 추출하는 새로운 벤치마크 데이터셋이다.
Résumé
KVP10k는 비즈니스 문서에서 키-값 쌍을 추출하는 새로운 데이터셋이다. 기존 데이터셋과 달리 KVP10k는 사전 정의된 키 없이 다양한 템플릿과 복잡한 레이아웃의 문서에서 키-값 쌍을 추출하는 것을 목표로 한다.
데이터셋 구축 과정:
- 웹 크롤링과 공개 문서 소스를 통해 10,707개의 다양한 문서 이미지 수집
- 문서 내 텍스트 요소를 키, 값, 무키 값, 무값 키 등으로 세부적으로 주석 처리
- 키-값 쌍 추출 및 문서 이해 태스크를 위한 벤치마크 제공
KVP10k의 특징:
- 기존 데이터셋 대비 10배 이상 큰 규모
- 다양한 문서 유형과 복잡한 레이아웃 포함
- 세부적인 주석 정보 제공
KVP10k는 문서 이해 및 정보 추출 분야의 발전을 위한 새로운 기준을 제시한다.
Stats
문서 당 평균 약 50개의 엔티티가 포함되어 있다.
전체 엔티티 중 약 60%가 키-값 쌍, 20%가 무키 값, 20%가 기타 엔티티이다.
공개 문서 소스에서 수집한 문서의 경우 평균 약 40개의 엔티티가 포함되어 있다.
웹 크롤링을 통해 수집한 문서의 경우 평균 약 60개의 엔티티가 포함되어 있다.
Citations
"KVP10k는 비즈니스 문서에서 사전 정의된 키 없이 키-값 쌍을 추출하는 새로운 벤치마크 데이터셋이다."
"KVP10k는 기존 데이터셋 대비 10배 이상 큰 규모와 다양한 문서 유형, 복잡한 레이아웃을 포함하고 있다."
"KVP10k는 문서 이해 및 정보 추출 분야의 발전을 위한 새로운 기준을 제시한다."