Core Concepts
多言語の音声活動投影モデルは、3つの言語に対して優れた予測性能を示す。
Abstract
この論文では、音声対話におけるターンテイキング予測モデルである音声活動投影(VAP)モデルが、英語、中国語(マンダリン)、日本語などの多言語データに適用されています。単言語のVAPモデルは他の言語に適用する際にうまく機能しないことが示されました。しかし、3つの言語全てでトレーニングされた多言語VAPモデルは、各言語で単一言語モデルと同等のパフォーマンスを示しました。さらに、追加された言語識別タスクにより、多言語モデルが入力音声の言語を正確に識別できることも示されました。
Stats
英語:2.396
中国語:2.832
日本語:2.265