Concepts de base
CLAPNQ는 질문에 대한 장문 답변을 제공하며, 답변이 출처 문서에 충실하고 간결하며 통일성 있게 구성되도록 설계된 벤치마크 데이터셋이다.
Résumé
CLAPNQ는 Natural Questions (NQ) 데이터셋에서 추출한 질문-답변 쌍으로 구성된다. 각 질문에 대한 답변은 출처 문서의 관련 문장들을 조합하여 작성되었으며, 간결하고 통일성 있는 특성을 가진다.
- 데이터셋에는 답변 가능한 질문과 답변 불가능한 질문이 포함되어 있다.
- 답변 가능한 질문의 경우, 질문에 대한 답변이 출처 문서에 충실하게 작성되었다.
- 답변 불가능한 질문의 경우, 무작위로 선택된 문서가 출처로 제공된다.
- CLAPNQ는 Retrieval, Generation, 그리고 전체 RAG 파이프라인을 평가하기 위한 벤치마크로 활용될 수 있다.
Stats
질문 길이는 평균 9단어이다.
답변 길이는 평균 57단어로, 출처 문서 길이의 1/3 수준이다.