Core Concepts
深層学習モデルの中間層の表現を用いて、訓練時に見ていないクラスに対する一般化能力を定量化することができる。モデルの深さによって一般化能力が大きく異なり、必ずしも最終層が最も優れているわけではない。
Abstract
本研究では、深層学習モデルの一般化能力を定量的に評価する新しい手法を提案している。具体的には以下の通りである:
事前学習済みの深層学習モデルを、一部のクラスのみを使って fine-tuning する。
訓練時に見ていないクラスに対する中間層の表現の分離可能性を、クラスタリングやk-nearest neighborsなどの手法を用いて定量化する。
これにより、モデルの深さによって一般化能力が大きく異なることを明らかにした。必ずしも最終層が最も優れているわけではなく、中間層の表現が最も優れている場合もある。
提案手法は、データセットに依存せずに一般的な傾向を捉えられることを示した。
提案手法は、深層学習モデルの一般化能力を定量的に評価し、モデル設計の指針を得るのに有用である。
Stats
深層学習モデルの訓練時の分類精度は高いが、未知のクラスに対する一般化能力は大きく異なる。
中間層の表現の分離可能性を定量化した指標gは、訓練時のクラスに対しては高いが、未知のクラスに対しては低い。
深さによってgの値は大きく変動し、必ずしも最終層が最も優れているわけではない。
Quotes
"高い分類精度が必ずしも高い一般化能力を意味するわけではない。"
"深層部分が必ずしも最も一般化能力が高いわけではない。"