Core Concepts
合成データのみを使った学習では、言語モデルの性能が劣化し、元の分布の情報が失われる可能性がある。しかし、元のデータと合成データを適切に組み合わせて学習すれば、言語モデルの崩壊を防ぐことができる。
Abstract
本論文では、言語モデルの学習における合成データの影響を理論的に分析している。
具体的には以下の2つのシナリオを考えている:
完全合成データ: 前世代のモデルから生成したデータのみを使って学習する場合
部分合成データ: 元のデータと前世代のモデルから生成したデータを混ぜて学習する場合
1の場合、言語モデルは必ず崩壊してしまうことを示した。一方、2の場合は、合成データの量を適切に制御すれば、言語モデルの崩壊を防ぐことができることを理論的に明らかにした。
具体的な分析結果は以下の通り:
完全合成データの場合、言語モデルの分散や崩壊確率、崩壊時期を定量的に評価した。モデル世代数が増えるほど、サンプルサイズが小さいほど、初期分布が集中しているほど、言語モデルの崩壊が早期に起こることがわかった。
部分合成データの場合、言語モデルの分散と元のモデルからの乖離度を評価した。元のデータと合成データの比率を適切に調整すれば、言語モデルの崩壊を防ぐことができることを示した。
これらの理論的分析結果は、実験的にも確認されている。
Stats
言語モデルの分散σmは、m世代目で1 - (1 - 1/n)^m (1 - S0)となる。
言語モデルが崩壊する確率ρmは、1 - n(1 - S0)(1 - 1/n)^m と 1 - (1 - S0)/(1 - 1/s^)*(1 - 1/n)^m の間に存在する。
言語モデルが崩壊するまでの期待世代数E[T]は、1 + (1 - S0)/(1 - 1/s^)(n - 1) と 1 + (1 - S0)n(n - 1)の間にある。