核心概念
의료 기록 질문을 SQL 쿼리로 정확하게 변환하기 위해 확률 기반 임계값 필터링과 오류 처리 기법을 활용한다.
摘要
최근 딥러닝 기반 언어 모델은 의료 분야의 환자 기록 검색과 같은 text-to-SQL 작업에서 큰 발전을 이루었다. 그러나 이러한 작업에서 답변할 수 없는 질문을 구분하는 것이 중요한 과제이다.
본 연구에서는 다음과 같은 방법을 제안한다:
- 의료 기록 질문 데이터셋을 활용하여 언어 모델을 fine-tuning하여 SQL 쿼리 생성 성능을 향상시킨다.
- 엔트로피 기반 방법을 도입하여 답변할 수 없는 결과를 식별하고 필터링한다.
- 생성된 SQL 쿼리의 신뢰도 점수를 기반으로 낮은 신뢰도 쿼리를 추가로 필터링하며, 문법 및 스키마 오류는 실제 데이터베이스 실행을 통해 완화한다.
실험 결과, 제안한 방법은 답변할 수 없는 질문을 효과적으로 필터링할 수 있으며, 모델 매개변수에 접근할 수 없는 경우에도 활용할 수 있음을 보여준다. 또한 실제 환경에서 효과적으로 사용될 수 있음을 입증하였다.
統計資料
답변 가능한 질문의 경우 SQL 쿼리 생성 모델의 정확도는 약 91.87%이다.
전체 테스트 데이터셋 중 약 19.97%가 답변 불가능한 질문이다.
引述
"최근 딥러닝 기반 언어 모델은 의료 분야의 환자 기록 검색과 같은 text-to-SQL 작업에서 큰 발전을 이루었다."
"답변할 수 없는 질문을 구분하는 것이 중요한 과제이다."