Core Concepts
音声モダリティが欠落している場合でも、テキスト・トゥ・スピーチ補完を用いることで、自動音声理解の性能を大幅に向上させることができる。
Abstract
本研究は、音声モダリティが欠落している状況下での自動音声理解(ASU)の問題に取り組んでいる。
具体的には以下の点が明らかになった:
- テキストのみでも、感情認識を除いて、音声や多モーダルモデルと同等以上の性能を発揮できる。
- 完全に合成音声のみを使用したモデル(TI-ASU-S)でも、意図分類やセンチメント分類では、実際の音声を使用したモデルと同等の性能が得られる。
- 95%の音声が欠落している状況でも、TI-ASU-Sは実際の音声を使用したモデルを上回る性能を示す。
- 多モーダルモデルにおいても、TI-ASU-MMは、最大95%の音声が欠落している状況でも、感情認識の性能を向上させることができる。
- 複数のテキスト・トゥ・スピーチモデルを組み合わせることで、合成音声の多様性が高まり、ASUの性能が向上する。
- 言語モデルを使ったテキスト補強は、センチメント分類の性能向上に寄与するが、他のタスクでは必ずしも効果的ではない。
全体として、本研究の提案手法TI-ASUは、音声モダリティが欠落した状況下でも、自動音声理解の性能を大幅に向上させることができることが示された。
Stats
95%の音声が欠落している状況でも、TI-ASU-Sは実際の音声を使用したモデルを上回る性能を示す。
TI-ASU-MMは、最大95%の音声が欠落している状況でも、感情認識の性能を向上させることができる。
Quotes
"音声モダリティが欠落している場合でも、テキスト・トゥ・スピーチ補完を用いることで、自動音声理解の性能を大幅に向上させることができる。"
"複数のテキスト・トゥ・スピーチモデルを組み合わせることで、合成音声の多様性が高まり、ASUの性能が向上する。"