의료 기록 질의 응답 시스템의 편향성 없는 평가를 위한 방법
의료 기록 질의 응답 시스템의 신뢰성을 평가하기 위해서는 답변할 수 없는 질문을 포함하는 것이 중요하다. 그러나 EHRSQL 데이터셋에서 이러한 답변할 수 없는 질문에 편향성이 존재하여, 단순한 N-gram 필터링만으로도 이를 구분할 수 있다. 이는 질의 응답 시스템 평가의 신뢰성을 저해한다. 이를 해결하기 위해 검증 데이터와 테스트 데이터의 분할을 조정하여 편향성을 완화하는 방법을 제안한다.