이 연구는 의료 기록 질의 응답 시스템의 신뢰성 평가를 위한 EHRSQL 데이터셋의 편향성 문제를 다룬다.
EHRSQL 데이터셋은 답변할 수 없는 질문을 포함하여 실제 상황을 반영하는 것으로 알려져 있다. 그러나 연구진의 분석 결과, 이러한 답변할 수 없는 질문에는 특정 N-gram 패턴이 두드러지게 나타나는 편향성이 존재한다. 이를 이용하면 단순한 필터링만으로도 답변할 수 없는 질문을 구분할 수 있어, 질의 응답 시스템 평가의 신뢰성이 저하된다.
이를 해결하기 위해 연구진은 검증 데이터와 테스트 데이터의 분할을 조정하는 방법을 제안한다. 편향성이 강한 N-gram 패턴을 가진 질문을 테스트 데이터로 이동시켜, 검증 데이터에서는 이러한 패턴을 찾기 어렵게 만든다. 이를 통해 단순한 필터링이 아닌 질문의 맥락을 이해하는 능력을 평가할 수 있게 된다.
MIMIC-III 데이터셋을 이용한 실험 결과, 제안한 데이터 분할 방식이 편향성을 효과적으로 완화하여 질의 응답 시스템의 실제 성능을 더 정확하게 반영할 수 있음을 보여준다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yongjin Yang... a las arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.01588.pdfConsultas más profundas