従来の深層学習では、データセットが小さく、複数エポックの学習が行われていたため、過剰適合が発生しやすかった。過剰適合は、学習が進むにつれてニューラルネットワークの確信度が過剰になることで発生し、較正の悪さとして現れる。この問題に対処するために、ベイズニューラルネットワークやアンサンブル学習などの手法が用いられてきた。
しかし、近年では、大規模なデータセットが利用可能になり、1エポックのみの学習が主流となっている。このような状況下では、過剰適合は以前ほど問題ではなくなってきている。
本論文では、1エポックのみの学習を行う場合、標準的な最尤推定による学習が、真のデータ生成過程の損失(テスト損失と同等)を最適化することを示している。これは、1エポック学習では、データ自体が真のデータ生成過程からサンプリングされたものであるためである。一方、ベイズ推定もまた、真のデータ生成過程の損失を最小化するように設計されている。したがって、1エポック学習においては、最尤推定とベイズ推定は同じ目的関数を最適化することになる。
論文の結論として、1エポック学習においては、過剰適合や較正の面で、ベイズ推定は標準的な最尤推定と比較して利点がないと主張している。ベイズ推定は計算コストがかかるため、1エポック学習では、標準的な最尤推定で十分であると言える。
大規模データセットを用いた1エポック学習が主流となるにつれて、過剰適合は減少していくと考えられる。一方で、データセットが小さく、複数エポックの学習が必要な状況においては、引き続きベイズニューラルネットワークなどの手法が有効であると考えられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問