CLAPNQ는 질문에 대한 장문 답변을 제공하며, 답변이 출처 문서에 충실하고 간결하며 통일성 있게 구성되도록 설계된 벤치마크 데이터셋이다.
정보 검색 질문에 포함된 잘못된 전제는 강건한 질문 답변 시스템에 중요한 과제이다. 본 연구는 Wikidata와 HotpotQA를 활용해 생성한 합성 QA 데이터셋 Syn-(QA)2를 통해 다양한 언어 모델의 잘못된 전제 탐지 성능을 평가하고, 자연발생적 질문에 비해 장기미답 질문의 탐지가 더 어려움을 보여준다.