Core Concepts
CroissantLLMは、英語とフランス語の1:1の比率でプリトレーニングされた1.3Bの二言語モデルで、消費者向けのローカルハードウェアでも高速に動作します。
Abstract
本研究では、以下の主な貢献を行っています:
高品質で多様なフランス語コーパスの収集と公開: 303Bトークンの大規模なフランス語コーパスを収集・公開しました。これは、言語モデリングに十分な品質を持つ、これまでで最大のマルチソースのフランス語コーパスです。
真の二言語モデルCroissantLLMの開発: 英語とフランス語のデータを1:1の比率で使用し、バイリンガルな特性を持つトークナイザーを使用することで、英語偏重の傾向を軽減した二言語モデルを開発しました。
FrenchBench: フランス語評価ベンチマークの構築: フランス語の能力を包括的に評価するための新しいベンチマークを構築しました。これには、知識、生成、理解力などの様々な側面を評価するタスクが含まれています。
高性能で効率的な推論向けモデルの公開: 大規模な事前学習を行うことで、小規模なデバイスでも高速に動作する高性能モデルを公開しました。また、研究コミュニティ向けに、様々なサイズのモデルチェックポイントや、詳細な学習データなども公開しています。
Stats
英語データは2351.13GBで655.64Bトークン
フランス語データは1258.70GBで303.51Bトークン
コードデータは366.87GBで141.43Bトークン
並列データは113.91GBで35.78Bトークン