核心概念
AURORA-M は、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、コードを対象とした15Bパラメーターの多言語オープンソースモデルであり、StarCoderPlusをベースに435億トークンの追加プリトレーニングを行っている。また、人間レビューの安全性指示に基づいてファインチューニングされており、従来のレッドチームの検討事項だけでなく、バイデン・ハリス大統領令で示された特定の懸念事項にも対応している。
摘要
本論文では、AURORA-Mという新しい15Bパラメーターの多言語オープンソース言語モデルを紹介する。AURORA-Mは、StarCoderPlusをベースに435億トークンの追加プリトレーニングを行っており、合計2兆トークンの学習データを持つ。また、人間レビューの安全性指示に基づいてファインチューニングされており、従来のレッドチームの検討事項だけでなく、バイデン・ハリス大統領令で示された特定の懸念事項にも対応している。
AURORA-Mの評価では、以下の点が確認された:
- 英語やコーディングタスクでの性能を維持しつつ、多言語設定での優れた性能を発揮する
- 安全性評価においても良好な結果を示す
- トータルトークン数の増加が多言語やコーディングタスクの性能向上に寄与する
AURORA-Mは、オープンソースの多言語言語モデルの開発における責任あるアプローチを促進するために公開される。
統計資料
合計2兆トークンの学習データを持つ
435億トークンの追加プリトレーニングを行った