核心概念
BuDDIE는 1,665개의 실제 비즈니스 문서로 구성된 다중 과제 데이터셋으로, 문서 분류, 핵심 개체 추출, 시각적 질문 답변 등 세 가지 주요 과제를 지원한다.
摘要
BuDDIE는 다양한 비즈니스 문서 데이터셋으로, 문서 분류, 핵심 개체 추출, 시각적 질문 답변 등 세 가지 주요 과제를 지원한다.
- 1,665개의 실제 비즈니스 문서로 구성되어 있으며, 미국 주정부 웹사이트에서 수집되었다.
- 문서 유형은 다양하며(양식, 증명서, 보고서 등), 주 및 문서 유형에 따라 다양한 스타일과 레이아웃을 가지고 있다.
- 69개의 핵심 개체 클래스와 7개의 상위 카테고리로 구성된 계층적 온톨로지를 제공한다.
- 문서 분류, 핵심 개체 추출, 시각적 질문 답변 등 세 가지 과제에 대한 풍부하고 밀도 있는 주석을 포함한다.
- 향후 다중 턴 질문 답변, 지시 튜닝 등 추가 과제로 확장할 수 있다.
統計資料
문서 분류 F1 점수는 99.15로 매우 높다.
핵심 개체 추출 F1 점수는 89.97로 우수한 성능을 보인다.
시각적 질문 답변의 ANLS 점수는 89.58로 높은 수준이다.