言語モデルの深さを増やすことで、コンポジショナルな一般化能力が向上する。ただし、深さの効果は急速に飽和し、深さを増やし続けても大きな効果は得られない。
言語の不均衡は、言語モデルの言語間の一般化を促進する。
RecurrentGemmaは、Griffinアーキテクチャを採用し、変換器を超えた優れたパフォーマンスを実現する。固定サイズの状態を使うことで、メモリ使用量を削減し、長シーケンスでの効率的な推論を可能にする。
小規模な言語モデルの性能低下は、出力表現の次元数と目標の文脈確率分布の高ランクとのミスマッチによって説明できる。このミスマッチは、よく知られているソフトマックス・ボトルネック現象を通じて、言語モデルの線形予測ヘッドの性能に影響を及ぼす。
シーケンス重要度は、複雑なLLMプロンプトのデバッグに適したビジュアルツールである。トークン、単語、文、段落レベルの重要度集計を提供し、プロンプトの迅速な改善を可能にする。
ブラジルポルトガル語のテキスト生成のために、リソースの少ない環境で開発された2つのコンパクトな言語モデルを公開する。
プロンプティングやプレフィックス微調整は、パラメータ数の少ない効率的な微調整手法として注目されているが、内部計算への影響と表現力の限界が明らかになった。
言語モデルの学習効率は、重複サブワードの存在によって低下する可能性がある。しかし、実際の近似重複サブワードは完全に等価ではなく、その影響は限定的である。
最新のRNN言語モデルアーキテクチャであるMambaとRWKVは、同等サイズのトランスフォーマーと同等以上のパフォーマンスを示しており、今後のシステムはまったく新しいアーキテクチャで構築される可能性がある。本論文では、トランスフォーマー言語モデル向けに設計された解釈可能性手法がこれらの新興RNNアーキテクチャにも適用できるかを検証する。
大規模言語モデルを新しい言語に適応させる包括的な手法を提案し、9言語にわたって最先端のモデルを構築する。