Core Concepts
OCR 단어 빈도 차이를 활용하여 ASR 성능을 향상시키는 방법론의 이론적 기반을 분석하고 검증하였다.
Abstract
이 연구는 OCR(광학 문자 인식) 기술을 활용하여 강의 영상에서 추출한 단어 빈도 정보를 ASR(자동 음성 인식) 성능 향상에 활용하는 방법론을 제안하고 있다.
주요 내용은 다음과 같다:
일반 문맥에서의 단어 빈도(NF), 강의 문맥에서의 단어 빈도(LF), 그리고 상대 빈도(RF)를 정의하고, RF 값이 높은 단어가 전문 용어일 가능성이 높다는 점을 활용하여 ASR 성능을 향상시킴.
기존 방법의 문제점을 분석하고, 이를 개선한 두 가지 방법을 제안함:
방법 1: OCR로 추출된 단어 중 LTD(Large Text Dataset)에 없는 단어의 NF 값을 LTD의 최소 단어 빈도로 대체
방법 2: RF 값이 1 미만인 단어의 RF 값을 1로 대체하여 파워 법칙을 따르도록 함
실험 결과, 제안한 두 가지 방법을 적용하면 기존 방법 대비 ASR 성능이 최대 3.22% 향상됨을 확인함.
또한 RF 값이 1 이상인 단어들의 순위-빈도 그래프가 파워 법칙을 따르는 것을 확인하여, 제안 방법론의 이론적 기반을 입증함.
Stats
OCR로 추출된 단어 중 LTD에 없는 단어의 수는 1,601개였다.
기존 방법에서는 이러한 단어의 NF 값을 0으로 처리하였지만, 개선된 방법에서는 LTD의 최소 단어 빈도로 대체하였다.
RF 값이 1 미만인 단어는 4,545개였으며, 이를 1로 대체하여 파워 법칙을 따르도록 하였다.
Quotes
"RF 값이 1 이상인 단어들의 순위-빈도 그래프가 파워 법칙을 따르는 것을 확인하여, 제안 방법론의 이론적 기반을 입증하였다."
"제안한 두 가지 방법을 적용하면 기존 방법 대비 ASR 성능이 최대 3.22% 향상되었다."