核心概念
大規模言語モデルの多言語能力を向上させるため、言語横断的な教示調整アプローチを提案する。
要約
本研究では、大規模言語モデルの多言語能力向上のために、言語横断的な教示調整アプローチ「CrossIn」を提案している。
主な内容は以下の通り:
- 多言語評価ベンチマークの構築
- 既存の多言語評価データセットの課題を踏まえ、読解理解、常識推論、論理推論の3つのタスクからなる「Cross-XQuAD」ベンチマークを構築した。
- 多言語間の知識整合性を評価する指標として「Consistency」と「AC3」を導入した。
- CrossInアプローチの提案
- 教示調整データに複数言語を組み合わせることで、言語間の知識共有を促進する「CrossIn」アプローチを提案した。
- CrossInデータには、英語教示+任意言語出力、任意言語教示+英語出力、任意言語教示+任意言語出力の3種類を用意した。
- 教示調整時の翻訳タスクの追加効果も検証した。
- 実験結果と分析
- CrossInアプローチにより、既存の英語中心の教示調整手法と比べて、知識の正確性と整合性が大幅に向上した(最大40%の相対的な改善)。
- 言語間の知識整合性には言語間の類似性が影響することが分かった。
- 少量の言語横断的データでも効果的に知識整合性を高められることが示された。
本研究は、大規模言語モデルの多言語能力向上に向けて、効率的な教示調整アプローチを提案し、その有効性を実証したものである。
統計
大規模言語モデルの多言語能力は英語中心のデータ偏りが原因で限定的である。
教示調整時に複数言語を組み合わせることで、言語間の知識共有を促進できる。
少量の言語横断的データでも効果的に知識整合性を高められる。
引用
"大規模言語モデルの多言語能力を向上させるため、言語横断的な教示調整アプローチを提案する。"
"教示調整時に複数言語を組み合わせることで、言語間の知識共有を促進できる。"
"少量の言語横断的データでも効果的に知識整合性を高められる。"