Core Concepts
大規模言語モデルは、わずかな高品質の訓練データや単一の翻訳方向の微調整でも、多言語の機械翻訳を効果的に行えるようになる。ただし、英語を目標言語とした場合、モデルが誤った解釈をする可能性がある。また、高資源言語のノイズデータに過剰に適応してしまう一方で、低資源言語のノイズには頑健である。
Abstract
本研究は、大規模言語モデルの機械翻訳への微調整について分析を行っている。主な知見は以下の通り:
32個の訓練データでも、11の翻訳方向に対応できるようになる。より多くのデータを使えば性能は向上するが、収穫は逓減する。これは、微調整がモデルの基本的な翻訳能力を引き出すだけで、深い理解を必要としないことを示唆している。
単一の翻訳方向の微調整でも、他の方向への翻訳が可能になる。ただし、英語を目標言語とした場合、モデルが誤った解釈をする可能性がある。
高資源言語のノイズデータに対してはモデルが過剰に適応してしまうが、低資源言語のノイズに対しては頑健である。これは、モデルが言語の特性を理解せずに表面的な翻訳タスクを学習していることを示唆している。
全体として、大規模言語モデルは少量の高品質データや単一の翻訳方向の微調整で効果的に機械翻訳を行えるようになるが、言語の特性を十分に理解していないため、ノイズデータや英語を目標言語とした場合に問題が生じる可能性がある。
Stats
32個の訓練データでも11の翻訳方向に対応できるようになる。
単一の翻訳方向の微調整でも、他の方向への翻訳が可能になる。
高資源言語のノイズデータに対してはモデルが過剰に適応してしまうが、低資源言語のノイズに対しては頑健である。
Quotes
"LLMsは、わずか32個の訓練データでも、11の翻訳方向に対応できるようになる。より多くのデータを使えば性能は向上するが、収穫は逓減する。"
"単一の翻訳方向の微調整でも、他の方向への翻訳が可能になる。ただし、英語を目標言語とした場合、モデルが誤った解釈をする可能性がある。"
"高資源言語のノイズデータに対してはモデルが過剰に適応してしまうが、低資源言語のノイズに対しては頑健である。"