核心概念
優先順位最適化を通じて、非主要言語の推論プロセスを主要言語の推論プロセスに整合させることで、多言語推論能力を向上させる。
摘要
本論文では、多言語アラインメントを活用した優先順位最適化フレームワーク「MAPO」を提案している。MAPO は、主要言語(英語)の推論能力を参照して、非主要言語の推論プロセスを整合させることで、多言語推論能力の向上を目指す。
具体的には以下の2段階で実現する:
- 優先順位の推定: 非主要言語の推論プロセスと主要言語の推論プロセスの整合性を、高精度の機械翻訳モデルを用いて評価し、優先順位として活用する。
- 優先順位の最適化: 推定した優先順位に基づき、Proximal Policy Optimization (PPO) や Direct Preference Optimization (DPO) を用いて、非主要言語の推論プロセスを最適化する。
実験の結果、MAPO は3つのベンチマークで大幅な精度向上(最大+16.2%)を達成し、主要言語と非主要言語の推論整合性も大幅に改善した。特に、ドメイン外データセットでの顕著な性能向上から、MAPO が多言語推論能力の一般化にも寄与することが示された。
统计
建議加入土豆泥的学生人数是182。
建議加入培根的学生人数是182 + 166 = 348。
引用
"Though reasoning abilities are considered language-agnostic, existing LLMs exhibit inconsistent reasoning abilities across different languages, e.g., reasoning in the dominant language like English is superior to other languages due to the imbalance of multilingual training data."
"To enhance reasoning abilities in non-dominant languages, we propose a Multilingual-Alignment-as-Preference Optimization framework (MAPO), aiming to align the reasoning processes in other languages with the dominant language."