Concepts de base
의료 기록 질문을 SQL 쿼리로 정확하게 변환하기 위해 확률 기반 임계값 필터링과 오류 처리 기법을 활용한다.
Résumé
최근 딥러닝 기반 언어 모델은 의료 분야의 환자 기록 검색과 같은 text-to-SQL 작업에서 큰 발전을 이루었다. 그러나 이러한 작업에서 답변할 수 없는 질문을 구분하는 것이 중요한 과제이다.
본 연구에서는 다음과 같은 방법을 제안한다:
- 의료 기록 질문 데이터셋을 활용하여 언어 모델을 fine-tuning하여 SQL 쿼리 생성 성능을 향상시킨다.
- 엔트로피 기반 방법을 도입하여 답변할 수 없는 결과를 식별하고 필터링한다.
- 생성된 SQL 쿼리의 신뢰도 점수를 기반으로 낮은 신뢰도 쿼리를 추가로 필터링하며, 문법 및 스키마 오류는 실제 데이터베이스 실행을 통해 완화한다.
실험 결과, 제안한 방법은 답변할 수 없는 질문을 효과적으로 필터링할 수 있으며, 모델 매개변수에 접근할 수 없는 경우에도 활용할 수 있음을 보여준다. 또한 실제 환경에서 효과적으로 사용될 수 있음을 입증하였다.
Stats
답변 가능한 질문의 경우 SQL 쿼리 생성 모델의 정확도는 약 91.87%이다.
전체 테스트 데이터셋 중 약 19.97%가 답변 불가능한 질문이다.
Citations
"최근 딥러닝 기반 언어 모델은 의료 분야의 환자 기록 검색과 같은 text-to-SQL 작업에서 큰 발전을 이루었다."
"답변할 수 없는 질문을 구분하는 것이 중요한 과제이다."