Core Concepts
音素数の一致を重視したイソメトリックNMTシステムの開発と評価
Abstract
伝統的な自動ビデオ吹き替え(AVD)パイプラインは、自動音声認識(ASR)、ニューラル機械翻訳(NMT)、およびテキスト読み上げ(TTS)から成る。
音素数に焦点を当てたIsometric-NMTアルゴリズムが使用され、合成された出力テキストの長さを調整することで、吹き替え後のビデオとオーディオの同期を保証する。
提案手法は、音素カウントコンプライアンス(PCC)スコアを提案し、長さの遵守度合いを測定する。
強化学習(RL)ベースのトレーニング戦略と生徒教師アーキテクチャを提案している。
自動ビデオ吹き替え技術
AVD技術は最近人気が高まっており、言語間でビデオを変換する3つのステップが含まれている。
同期性に関して重要な要因は、TTSで生成されたターゲット言語スピーチの持続時間が元言語スピーチの持続時間と一致すること。
イソメトリックNMTモデル
以前は文字や単語数に焦点が当てられていたが、本手法では音素数に焦点を当てている。
RLエージェントと生徒教師アーキテクチャを使用して音素カウントに基づく翻訳品質と長さ遵守度合いのバランスを取っている。
フィードバック制御方法
RL-NMT手法ではPCCスコアで36%程度の改善が見られた。
ST-RL-NMTフレームワークでは品質関連指標に対する劣化が軽減された。
Stats
音素カウントコンプライアンス(PCC)スコアにおける36%の改善
Quotes
"音素数に焦点を当てたIsometric-NMTアルゴリズム"
"強化学習(RL)ベースのトレーニング戦略"