本研究では、音声対話型LLMの性能向上と効率化のために、音声認識(ASR)機能を暗黙的に内部化する手法を提案している。
現在の音声対話型LLMは、音声入力を文字に変換してから応答を生成するという2段階のパイプラインを使用しているが、これにより遅延が生じ、音声特徴の損失も起こる。
提案手法では、ASR機能を暗黙的に内部化することで、音声入力から直接応答を生成できるようにする。これにより、遅延が14.5%削減され、より効率的で自然な音声対話が可能になる。
また、大規模な合成音声対話データセットを公開し、Prometheus 2 7Bを用いた自動評価手法を導入することで、提案手法の有効性を示している。
一方で、文字生成の内部化については課題が残されており、今後の研究が必要とされる。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies