Core Concepts
大規模言語モデルを用いて、既存の音声翻訳コーパスから同時通訳スタイルのデータを自動的に生成し、同時通訳システムの性能向上に役立てる。
Abstract
本研究では、同時通訳(SiMT)システムの訓練に効果的な同時通訳(SI)コーパスを自動的に構築する手法を提案した。
まず、既存の音声翻訳コーパスから、chunk-wise monotonic translation (CWMT)のガイドラインに基づいて、大規模言語モデル(LLM)を用いて同時通訳スタイルのデータを生成した(LLM-SI-Corpus)。
次に、LLM-SI-Corpusを用いてSiMTモデルを訓練し、既存のSIコーパスや翻訳コーパスを用いた場合と比較した。
その結果、LLM-SI-Corpusを用いることで、潜時を抑えつつ翻訳品質を維持できることが示された。
特に、chunk-wise評価データセットにおいて、LLM-SI-Corpusを用いたモデルが最も優れた性能を示した。
このように、LLMを活用して自動的にSIコーパスを構築する手法は、SiMTシステムの性能向上に有効であることが確認された。
Stats
同時通訳では、入力の前半部分を先に訳出し、後半部分を後から訳出するため、自然さが損なわれる傾向がある。
翻訳の品質は通訳者の技術レベルによって異なり、省略や繰り返しなどの通訳テクニックが含まれるため、元の発話内容と完全に一致しない。
chunk-wise monotonic translation (CWMT)は、言語間の語順の違いを考慮し、入力の順序を可能な限り維持しつつ、自然な翻訳を行うガイドラインである。
Quotes
"同時通訳(SiMT)システムの訓練には、同時通訳(SI)コーパスを用いることが効果的だが、そのようなコーパスは限られている。"
"大規模言語モデル(LLM)を活用して、既存の音声翻訳コーパスからSIスタイルのデータを自動的に生成することで、SiMTシステムの性能向上が期待できる。"