核心概念
LLMを利用して、音声と文字の対応付けを行う検索システムを構築することができる。このシステムは、音声データの事前学習を必要とせず、LLMの多言語理解能力を活用して、多言語の音声とテキストの対応付けを行うことができる。
要約
本研究では、LLMをベースとした多言語かつ多モーダルな検索システムを提案している。具体的には以下の通りである:
- LLMの埋め込み層を拡張し、音声トークンを扱えるようにすることで、LLMを音声-テキスト検索システムに変換する。
- 21言語のデータでのみ学習を行ったにもかかわらず、102言語での音声-テキスト検索タスクで優れた性能を示す。これは、LLMの多言語理解能力を活用できているためと考えられる。
- 音声-テキスト翻訳タスクでも、ゼロショット学習で一定の性能を示すことができる。さらに、機械翻訳データを追加学習することで、その性能を向上させることができる。
以上のように、LLMを活用することで、音声データの事前学習を必要とせずに、多言語かつ多モーダルな検索システムを構築できることを示している。
統計
我々のモデルは、102言語のFLEURSデータセットでの音声-テキスト検索タスクにおいて、平均Recall@1が86.15%と、既存手法のmSLAMを10ポイント以上上回る性能を示した。
一方、音声-テキスト翻訳タスクでは、ゼロショット学習でも一定の性能を示し、機械翻訳データを追加学習することで、さらに性能が向上した。例えば、ドイツ語-英語の翻訳タスクでは、BLEU scoreが80.5まで向上した。
引用
"我々のモデルは、音声データの事前学習を必要とせずに、LLMの多言語理解能力を活用して、多言語の音声-テキスト対応付けを行うことができる。"
"ゼロショット学習でも一定の音声-テキスト翻訳性能を示すことができ、機械翻訳データを追加学習することでさらに性能が向上した。"