本研究では、深層ニューラルネットワーク(DNN)の特徴抽出層と分類層を分離して訓練する手法を提案している。従来の手法では、特徴抽出層と分類層を同時に訓練していたため、過剰パラメータ化されたDNNの予測確率が適切に校正されていないという問題があった。
提案手法では、まず最初にDNNを通常の方法で端から端まで訓練する(Stage 1)。次に、特徴抽出層のパラメータを固定したまま、分類層のみを再度訓練する(Stage 2)。これにより、特徴抽出層の学習が分類層の校正に悪影響を与えないようにする。
さらに、変分推論を用いた手法(V-TST)では、最後の隠れ層の出力に確率的な事前分布を置き、変分下限(ELBO)を最大化するように分類層を訓練する。これにより、特徴表現の構造がより良く保たれ、さらなる校正の改善が得られる。
提案手法は、CIFAR10、CIFAR100、SVHNデータセットにおいて、Wide Residual Network(WRN)やVisual Transformer(ViT)といった過剰パラメータ化されたモデルの校正を大幅に改善することが示された。特に、期待校正誤差(ECE)が大幅に減少し、より適切な確率予測が得られることが確認された。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Mikkel Jorda... lúc arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01196.pdfYêu cầu sâu hơn