Konsep Inti
英語中心の大規模言語モデル(LLM)は、他の言語、特にリソースの少ない言語ではパフォーマンスが低下するという課題を克服するため、辞書挿入プロンプト(DIP)と呼ばれる新しい手法が提案されている。
Abstrak
辞書挿入プロンプトを用いた多言語大規模言語モデルの多言語推論
書誌情報: Lu, H., Li, Z., & Lam, W. (2024). Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models. arXiv preprint arXiv:2411.01141.
研究目的: 本研究は、英語中心の大規模言語モデル(LLM)が、リソースの少ない言語を含む多言語環境下での推論タスクにおいて、どのように性能を向上できるかを調査することを目的とする。
手法: 本研究では、辞書挿入プロンプト(DIP)と呼ばれる新しい手法を提案する。DIPは、非英語のプロンプトに対して、単語辞書を用いて英語の対応語を挿入することで、LLMの多言語推論能力を向上させる。具体的には、非英語のプロンプトが与えられると、DIPは単語辞書を参照し、単語の英語の対応語をプロンプトに挿入する。これにより、英語への翻訳が改善され、英語のモデル思考ステップが向上し、最終的に結果が向上する。本手法は、FLORES-200の約200言語を用いて評価され、GSM8KやAQuAなどの既存の英語推論ベンチマークからNLLB翻訳を用いて合成多言語ベンチマークを作成し、評価に用いられた。
主な結果: DIPは、ChatGPTやLlama LLMを用いた数学的推論タスクと常識推論タスクにおいて、複数のオープンソースおよびクローズソースのLLMにおいて、その有効性が確認された。特に、リソースの少ない言語において、DIPは従来の手法と比較して、大幅な性能向上を示した。
結論: DIPは、シンプルながらも効果的な手法であり、LLMの多言語推論能力を向上させるための有望なアプローチであることが示された。DIPは、計算コストが低く、様々なLLMに容易に適用できるという利点も有している。
意義: 本研究は、LLMの多言語化に向けた重要な一歩となるものである。DIPは、リソースの少ない言語を含む、より多くの言語でLLMを活用することを可能にする可能性を秘めている。
限界と今後の研究: 本研究では、200言語という限られた数の言語でしかDIPの評価を行っていない。今後、より多くの言語でDIPを評価し、その有効性を確認する必要がある。また、DIPの性能をさらに向上させるために、辞書の質の向上や、プロンプトの設計の改善など、さらなる研究が必要である。
Statistik
FLORES-200の約200言語
GSM8Kの各言語につきランダムにサンプリングされた200のインスタンス
GSM8Kの10の低リソース言語の全1,319のテストインスタンス
SVAMPの10の低リソース言語の全1,000のテストインスタンス
AQuAの10の低リソース言語の全テストインスタンス
Date UnderstandingとSports Understandingの10の低リソース言語の全テストセット