Основные понятия
モデルを再帰的に学習させると、時間とともにモデルの性能が劣化し、最終的に完全に使用不可能になる「モデルの崩壊」という現象が起こる。この現象を、カーネル回帰の簡単な設定で分析し、モデルの崩壊を引き起こす要因を明らかにした。
Аннотация
本研究では、モデルの崩壊現象を理論的に解明するため、カーネル回帰の簡単な設定で分析を行った。主な結果は以下の通り:
- 正確な汎化誤差の特徴付け
- 人工的に生成されたラベルデータを使って学習したモデルの汎化誤差を解析的に導出した。
- 人工データを使って学習を繰り返すと、汎化誤差が累積的に悪化することを示した。
- 修正された拡張則
- 特徴量の共分散行列のスペクトルが累乗則に従う場合について、人工データの影響を反映した新しい拡張則を導出した。
- この拡張則に基づき、人工データの影響を緩和するための最適な正則化パラメータを提案した。
これらの理論的な結果は、人工データが学習に与える悪影響を定量的に明らかにしている。特に、人工データの蓄積により、最終的には学習が不可能になる可能性を示唆している。この知見は、クリーンなデータの価値が高まることを意味している。
Статистика
人工データを使って学習を繰り返すと、汎化誤差が累積的に悪化する。
特徴量の共分散行列のスペクトルが累乗則に従う場合、人工データの影響を反映した新しい拡張則が成り立つ。
人工データの影響を緩和するための最適な正則化パラメータを提案した。