本研究では、音声対話型LLMの性能向上と効率化のために、音声認識(ASR)機能を暗黙的に内部化する手法を提案している。
現在の音声対話型LLMは、音声入力を文字に変換してから応答を生成するという2段階のパイプラインを使用しているが、これにより遅延が生じ、音声特徴の損失も起こる。
提案手法では、ASR機能を暗黙的に内部化することで、音声入力から直接応答を生成できるようにする。これにより、遅延が14.5%削減され、より効率的で自然な音声対話が可能になる。
また、大規模な合成音声対話データセットを公開し、Prometheus 2 7Bを用いた自動評価手法を導入することで、提案手法の有効性を示している。
一方で、文字生成の内部化については課題が残されており、今後の研究が必要とされる。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Robin Shing-... klo arxiv.org 09-27-2024
https://arxiv.org/pdf/2409.17353.pdfSyvällisempiä Kysymyksiä