Core Concepts
암하라어 자동 음성 인식 출력의 의미론적 정확성을 높이기 위한 변환기 인코더-디코더 기반 후처리 접근법
Abstract
이 논문은 암하라어 자동 음성 인식(ASR) 시스템의 의미론적 정확성을 높이는 방법을 제안합니다. 암하라어는 게에즈 문자를 사용하며, 단어 경계를 나타내는 공백이 의미에 큰 영향을 미칩니다. 기존 암하라어 ASR 벤치마크는 이러한 공백을 고려하지 않아 실제 성능을 과대평가하고 있습니다.
이를 해결하기 위해 저자들은 먼저 기존 암하라어 ASR 테스트 데이터셋의 전사를 수정하여 정확한 평가가 가능하도록 했습니다. 또한 변환기 인코더-디코더 구조를 사용하여 ASR 출력을 문법적으로 완전하고 의미 있는 암하라어 문장으로 재구성하는 후처리 접근법을 제안했습니다.
실험 결과, 제안 모델은 문자 오류율 5.5%, 단어 오류율 23.3%를 달성하여 기존 암하라어 ASR 모델 대비 큰 성능 향상을 보였습니다. 이를 통해 암하라어 음성 인식 시스템의 의미론적 정확성을 크게 개선할 수 있었습니다.
Stats
암하라어 ASR 모델의 출력 문장에는 단어 간 공백 배치가 잘못되어 있거나 단어가 누락되거나 잘못 감지되는 등의 오류가 많이 발생합니다.
이로 인해 출력 문장의 의미가 제대로 전달되지 않는 문제가 있습니다.
Quotes
"암하라어 ASR 출력의 하위 단어 순서는 발화의 변화, 문맥적 복잡성, 배경 소음, 방언 차이 등 다양한 요인의 영향을 받아 의미론적 정확성이 떨어집니다."
"ASR 모델의 출력 하위 단어 순서를 의미 있는 암하라어 문장으로 재구성하는 것이 중요합니다."