多言語オープンソース言語モデル AURORA-M: 米国大統領令に基づいて徹底的に検証された初の取り組み
AURORA-M は、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、コードを対象とした15Bパラメーターの多言語オープンソースモデルであり、StarCoderPlusをベースに435億トークンの追加プリトレーニングを行っている。また、人間レビューの安全性指示に基づいてファインチューニングされており、従来のレッドチームの検討事項だけでなく、バイデン・ハリス大統領令で示された特定の懸念事項にも対応している。