最小ベイズリスク(MBR)復号は多言語大規模言語モデル(MLLM)の翻訳性能を大幅に向上させることができる。しかし、MBR復号は計算コストが高い。我々は最近開発された強化学習手法である直接的な好みの最適化(DPO)を使って、MBRの利点を得ることなく追加の計算を必要としないようにMLLMを微調整する方法を示す。我々の手法は少量の単言語微調整セットのみを使用し、複数のNMTテストセットでベースラインのMLLMよりも大幅に優れた性能を示す。
低リソース言語のニューラル機械翻訳の向上に関する研究とその重要性に焦点を当てる。
ARとNARモデルの協力学習により、両方の性能を同時に向上させる新しい方法を提案します。