Основные понятия
SpeechAlignは、音声翻訳モデルのアラインメント能力を評価するためのフレームワークである。SpeechAlignには、音声翻訳アラインメントを評価するための新しいデータセットと2つの新しい指標が含まれている。
Аннотация
本論文では、音声翻訳モデルのアラインメント能力を評価するためのフレームワーク「SpeechAlign」を提案している。
SpeechAlignには以下の2つの主要な要素が含まれている:
- 音声翻訳アラインメントを評価するための新しいデータセット「Speech Gold Alignment」の作成
- 既存の英語-ドイツ語テキスト翻訳アラインメントデータセットを拡張し、合成音声を追加
- 各単語の開始時間と終了時間の情報を含む
- 2つの新しい評価指標の提案
- Speech Alignment Error Rate (SAER)
- Time-weighted SAER (TW-SAER)
SpeechAlignのフレームワークでは、モデルの出力アラインメントを単語単位に変換し、これらの指標を計算することができる。
また、SpeechAlignを用いて、オープンソースの音声翻訳モデルの評価を行った。結果、モデルのサイズが大きくなるほど、アラインメント精度が向上することが示された。
Статистика
音声翻訳モデルの性能は単語単位のアラインメントエラー率(SAER)と相関がある
大規模なWhisper音声翻訳モデルのSAERは68.9%、TW-SAERは63.5%