言語モデルの知識統合の範囲を示す知識エントロピーが、事前学習の進行に伴って減少し、新しい知識の獲得と既存知識の保持を阻害する。
好みの整合性アルゴリズムを適用することで、言語モデルベースのTTSシステムの知覚的な品質を大幅に向上させることができる。
言語モデルの深さを増やすことで、コンポジショナルな一般化能力が向上する。ただし、深さの効果は急速に飽和し、深さを増やし続けても大きな効果は得られない。
言語の不均衡は、言語モデルの言語間の一般化を促進する。
RecurrentGemmaは、Griffinアーキテクチャを採用し、変換器を超えた優れたパフォーマンスを実現する。固定サイズの状態を使うことで、メモリ使用量を削減し、長シーケンスでの効率的な推論を可能にする。
小規模な言語モデルの性能低下は、出力表現の次元数と目標の文脈確率分布の高ランクとのミスマッチによって説明できる。このミスマッチは、よく知られているソフトマックス・ボトルネック現象を通じて、言語モデルの線形予測ヘッドの性能に影響を及ぼす。
シーケンス重要度は、複雑なLLMプロンプトのデバッグに適したビジュアルツールである。トークン、単語、文、段落レベルの重要度集計を提供し、プロンプトの迅速な改善を可能にする。
ブラジルポルトガル語のテキスト生成のために、リソースの少ない環境で開発された2つのコンパクトな言語モデルを公開する。
プロンプティングやプレフィックス微調整は、パラメータ数の少ない効率的な微調整手法として注目されているが、内部計算への影響と表現力の限界が明らかになった。
言語モデルの学習効率は、重複サブワードの存在によって低下する可能性がある。しかし、実際の近似重複サブワードは完全に等価ではなく、その影響は限定的である。