Core Concepts
講義オーディオの自動音声認識性能を向上させるために、OCR で抽出した単語の頻度差分を活用する手法の理論的基盤を分析した。
Abstract
本研究では、講義オーディオの自動音声認識(ASR)性能を向上させるために提案された単語頻度差分アプローチの理論的基盤を分析した。
まず、この手法では以下の3つの指標を定義している:
一般的な文脈での単語頻度(NF: Normal Frequency)
講義文脈での単語頻度(LF: Lecture Frequency)
相対頻度(RF: Relative Frequency)
RFは LF/NF で定義され、講義文脈での単語の相対的な出現頻度を表す。講義で頻出する単語ほど RFが高くなり、ASRの性能向上に活用される。
その後の研究では、NF 計算時の改善点が提案された:
LTD(Large Text Dataset)に含まれない単語のNFを0とせず、OCR抽出語の最小カウント値に置き換える
RF が1未満の単語は全て1に置き換える
これらの改善により、RFの計算が安定化し、単語頻度がべき乗則に従うことが確認された。
最終的に、提案手法の理論的基盤がべき乗則に基づくことが示された。これにより、講義オーディオの専門用語認識精度向上に寄与する手法の有効性が裏付けられた。
Stats
講義オーディオ108時間分のデータを使用した。
LTDには333,333単語、OCR抽出語には1,601単語が含まれていた。