Konsep Inti
最小ベイズリスク(MBR)復号は多言語大規模言語モデル(MLLM)の翻訳性能を大幅に向上させることができる。しかし、MBR復号は計算コストが高い。我々は最近開発された強化学習手法である直接的な好みの最適化(DPO)を使って、MBRの利点を得ることなく追加の計算を必要としないようにMLLMを微調整する方法を示す。我々の手法は少量の単言語微調整セットのみを使用し、複数のNMTテストセットでベースラインのMLLMよりも大幅に優れた性能を示す。
Abstrak
本論文では、最小ベイズリスク(MBR)復号を活用しつつ、計算コストの高さを克服するための手法を提案している。具体的には以下の通りである:
- MBRの2段階の復号プロセスを模倣するため、サンプリングによって複数の翻訳候補を生成し、それらを BLEURT メトリックに基づいてランク付けする。
- 得られた翻訳候補のペアを入力として、直接的な好みの最適化(DPO)アルゴリズムを用いて、ベースラインのMLLMを微調整する。これにより、MBRの好みを学習させることができる。
- 微調整されたMLLMをビームサーチで復号すると、MBR復号と同等の性能が得られる。
- 提案手法を BLOOMZ および BLOOMZ-mt モデルに適用し、複数の言語ペアのテストセットで大幅な性能向上を示す。
Statistik
翻訳候補を生成する際のサンプリング温度は0.7を使用した。
MBR復号に使用するサンプル数は、中国語-英語では32、フランス語-英語では16、その他の言語ペアでは8とした。
Kutipan
"MBR復号は計算コストが高い、両方のパスで計算が必要である。"
"我々の目標は、MBRの2段階復号と同等の性能を持つ単一パスの復号モデルを微調整することである。"
"DPOは通常のRLHFアプローチを再定式化し、明示的な報酬モデリングステップを回避する。"