核心概念
의료 기록 질의 응답 시스템의 신뢰성을 평가하기 위해서는 답변할 수 없는 질문을 포함하는 것이 중요하다. 그러나 EHRSQL 데이터셋에서 이러한 답변할 수 없는 질문에 편향성이 존재하여, 단순한 N-gram 필터링만으로도 이를 구분할 수 있다. 이는 질의 응답 시스템 평가의 신뢰성을 저해한다. 이를 해결하기 위해 검증 데이터와 테스트 데이터의 분할을 조정하여 편향성을 완화하는 방법을 제안한다.
摘要
이 연구는 의료 기록 질의 응답 시스템의 신뢰성 평가를 위한 EHRSQL 데이터셋의 편향성 문제를 다룬다.
EHRSQL 데이터셋은 답변할 수 없는 질문을 포함하여 실제 상황을 반영하는 것으로 알려져 있다. 그러나 연구진의 분석 결과, 이러한 답변할 수 없는 질문에는 특정 N-gram 패턴이 두드러지게 나타나는 편향성이 존재한다. 이를 이용하면 단순한 필터링만으로도 답변할 수 없는 질문을 구분할 수 있어, 질의 응답 시스템 평가의 신뢰성이 저하된다.
이를 해결하기 위해 연구진은 검증 데이터와 테스트 데이터의 분할을 조정하는 방법을 제안한다. 편향성이 강한 N-gram 패턴을 가진 질문을 테스트 데이터로 이동시켜, 검증 데이터에서는 이러한 패턴을 찾기 어렵게 만든다. 이를 통해 단순한 필터링이 아닌 질문의 맥락을 이해하는 능력을 평가할 수 있게 된다.
MIMIC-III 데이터셋을 이용한 실험 결과, 제안한 데이터 분할 방식이 편향성을 효과적으로 완화하여 질의 응답 시스템의 실제 성능을 더 정확하게 반영할 수 있음을 보여준다.
統計資料
부서(department)라는 단어가 포함된 질문은 39개의 답변할 수 없는 질문 중 1개만 포함되어 있다.
'you'라는 단어가 포함된 질문은 33개의 답변할 수 없는 질문 중 1개만 포함되어 있다.
'예약(appointment)'이라는 단어가 포함된 질문은 25개의 답변할 수 없는 질문 중 0개가 포함되어 있다.
'할 수 있습니까(can)'라는 단어가 포함된 질문은 23개의 답변할 수 없는 질문 중 0개가 포함되어 있다.
'전화번호(phone)'라는 단어가 포함된 질문은 21개의 답변할 수 없는 질문 중 0개가 포함되어 있다.
'부작용(effects)'이라는 단어가 포함된 질문은 20개의 답변할 수 없는 질문 중 0개가 포함되어 있다.