Conceitos Básicos
최신 음성-텍스트 변환 및 화자 식별 기술을 활용하여 환자-의사 대화를 자동으로 전사하고 화자를 식별하는 안전한 시스템을 개발하였다.
Resumo
이 논문은 의료 분야에서 발생하는 문서화 부담을 줄이기 위해 최신 음성-텍스트 변환 및 화자 식별 기술을 활용한 자동 전사 시스템을 소개한다.
시스템 구성:
- 오디오 파일 업로드 및 안전한 저장: 민감한 의료 데이터의 보안을 위해 로컬 호스팅 MinIO S3 서버를 사용하여 파일을 저장한다.
- 작업 스케줄링 및 관리: ClearML 플랫폼을 통해 작업 대기열을 관리하고 진행 상황을 모니터링한다.
- 전사 및 화자 식별: Whisper 모델로 전사를 수행하고 PyAnnote 모델로 화자 식별을 수행한다.
- 전사와 화자 식별 결과 통합: 전사 결과와 화자 식별 결과의 시간 정보를 매칭하여 화자가 식별된 전사 결과를 생성한다. 필요 시 대화 맥락을 활용하는 언어 모델을 추가로 활용하여 화자 식별 정확도를 높인다.
이 시스템은 44시간 분량의 시뮬레이션 대화 데이터에 적용되었으며, 전사 정확도(WER 중앙값 0.145)와 화자 식별 정확도(중앙값 0.233)를 보여주었다. 이를 통해 의료 문서화 자동화를 위한 강력한 기반을 제공한다.
Estatísticas
전체 데이터셋은 44시간 분량의 대화로 구성되어 있으며, 총 300,000단어 이상이 전사되었다.
전사 정확도(WER)의 중앙값은 0.145로, 전사된 단어의 약 85%가 정확하게 전사되었다.
화자 식별 정확도의 중앙값은 0.233으로, 전사된 단어의 약 77%가 올바르게 화자가 식별되었다.
Citações
"이 시스템은 의료 문서화 자동화를 위한 강력한 기반을 제공한다."
"최신 음성-텍스트 변환 및 화자 식별 기술을 활용하여 안전하고 효율적인 자동 전사 시스템을 개발하였다."