Core Concepts
大規模言語モデルを世代を重ねて学習していくと、徐々に元の言語分布の情報が失われ、モデルの性能が劣化していく現象が起こる。
Abstract
本論文では、大規模言語モデルを世代を重ねて学習していく際に起こる「モデル劣化」と呼ばれる現象について述べている。
モデル劣化は以下のような過程で起こる:
初期のモデルは人間が生成したデータを学習する
その後のモデルは前世代のモデルが生成したデータを学習する
世代を重ねるごとに、前世代のモデルが生成したデータに偏った学習が行われるようになる
その結果、元の言語分布の情報が失われ、モデルの性能が劣化していく
この現象は、ガウシアンミクスチャーモデルや変分オートエンコーダ、大規模言語モデルなど、さまざまなタイプのモデルで確認されている。
モデル劣化を防ぐには、人間が生成したデータへの継続的なアクセスが重要である。大規模言語モデルが生成したデータだけでは、元の言語分布の情報が失われていくため、モデルの性能が長期的に劣化してしまう。
Stats
世代を重ねるごとに、モデルの推定する平均と分散が元の分布から乖離していく。
世代を重ねるごとに、モデルが生成するデータの尤度が元のモデルから見て低くなっていく。
Quotes
"モデル劣化とは、学習データが前世代のモデルが生成したデータに偏っていくことで、徐々に元の言語分布の情報が失われていく現象である。"
"モデル劣化を防ぐには、人間が生成したデータへの継続的なアクセスが重要である。大規模言語モデルが生成したデータだけでは、元の言語分布の情報が失われていくため、モデルの性能が長期的に劣化してしまう。"