多言語デコーダーベースの事前学習言語モデルは言語固有のニューロンを持ち、これらのニューロンを制御することで、テキスト生成時の目標言語の確率を大幅に変化させることができる。
大規模言語モデルは英語以外の言語でのパフォーマンスが劣るため、計算リソースを大幅に節約しつつ、伝統中国語理解と生成能力を向上させる手法を提案する。
AURORA-M は、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、コードを対象とした15Bパラメーターの多言語オープンソースモデルであり、StarCoderPlusをベースに435億トークンの追加プリトレーニングを行っている。また、人間レビューの安全性指示に基づいてファインチューニングされており、従来のレッドチームの検討事項だけでなく、バイデン・ハリス大統領令で示された特定の懸念事項にも対応している。
多言語言語モデルの零距離言語間転移の能力は確立されているが、正の転移と負の転移の現象、および言語選択の影響は十分に理解されていない。我々は、言語の影響を分離するための効率的な手法を提案する。