本研究では、ブラジルポルトガル語のテキスト生成のために、リソースの少ない環境で開発された2つのコンパクトな言語モデル「ティニーティニーラマ」を紹介する。
まず、モデルのサイズと学習データセットの推定を行った。リソース制限のため、160万パラメータと460万パラメータの2つのモデルを開発することにした。学習データセットは、ブラジルポルトガル語のウィキペディア、CulturaX、OSCAR、Common Crawl、ROOTS データセットを組み合わせた4.1億トークンのコーパスと、命令フォロー行動のデモンストレーションを含む6.2億トークンのコーパスを使用した。
次に、Llama 2ベースのデコーダ型トランスフォーマーモデルを採用し、32,000語彙の専用のSentencePiece トークナイザーを開発した。これにより、ブラジルポルトガル語のテキストをより効率的にエンコードできるようになった。
モデルの事前学習では、混合精度、グラジエント蓄積、グラジエントチェックポイント、FlashAttention、最適化手法の調整など、リソース制限に合わせた最適化を行った。160万パラメータモデルの学習には36時間、460万パラメータモデルの学習には280時間を要した。
モデルの評価では、言語モデル評価ハーネスの4つのベンチマークを使用し、同規模の他モデルと比較した。その結果、我々のモデルは他モデルと遜色ない、あるいはそれ以上の性能を示した。さらに、ポルトガル語固有のベンチマークタスクでも良好な結果を得た。
また、エネルギー消費と炭素排出の計測も行い、我々のモデル開発が環境に及ぼす影響を定量化した。
最後に、我々のモデルをアパッチ2.0ライセンスで公開し、コミュニティでの活用と発展を促進する。
翻譯成其他語言
從原文內容
arxiv.org
深入探究