本論文では、大規模言語モデル(LLM)との音声対話を実現するためのLLaMA-Omniモデルを提案している。LLaMA-Omniは、音声エンコーダ、音声アダプタ、LLM、ストリーミング音声デコーダから構成される。
まず、ユーザの音声指示をWhisperエンコーダで音声表現に変換し、音声アダプタでLLMの入力表現に適応させる。LLMはこの音声表現から直接文章応答を生成する。同時に、ストリーミング音声デコーダがLLMの出力から非自己回帰的に音声応答を生成する。
このアーキテクチャにより、音声指示から文章と音声の応答を同時に生成でき、応答遅延を大幅に削減できる。また、200K件の音声指示-応答ペアからなるInstructS2S-200Kデータセットを構築し、LLaMA-Omniの学習に活用している。
実験の結果、LLaMA-Omniは従来の音声言語モデルと比べて応答の質と遅延の両面で優れた性能を示し、わずか4 GPUで3日以内の学習で構築できることが分かった。これにより、大規模言語モデルに基づく効率的な音声対話システムの開発が可能になると期待される。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询