本論文は、過剰パラメータ化されたモデルのOOD一般化性能を分析している。
主な内容は以下の通り:
一般的な機械学習モデルは、訓練データと同一の分布(IID)を前提としているが、実世界では容易にこの前提が崩れ、OOD問題が発生する。
過剰パラメータ化されたDNNのOOD一般化性能に関する理論的理解は不足しており、既存の理論は経験的発見と矛盾する。
本研究では、ベナイン過剰適合条件の下で、ReLUベースのランダムフィーチャーモデルを分析した。
分析の結果、ID損失が最小化されても、OOD損失は一定の過剰損失を示すことが分かった。
しかし、モデルのパラメータ数を増やすことで、OOD損失を大幅に削減できることが示された。
これは、ID損失の分散項が長尾特徴の直交性により小さくなるのに対し、OOD損失の分散項は分布シフトにより増大するが、モデルの隠れ次元を増やすことで、この分散項を低減できるためである。
さらに、モデルアンサンブルも同様の効果を発揮し、OOD一般化性能を向上させることが示された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yifan Hao,Yo... kl. arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17592.pdfDybere Forespørgsler