Core Concepts
ニューラルネットワークの変分パラメータを指数的に少ないパラメータを持つ自動微分テンソルネットワークにエンコーディングすることで、ニューラルネットワークを大幅に圧縮できる。
Abstract
本研究では、ニューラルネットワーク(NN)の変分パラメータを、指数的に少ないパラメータを持つ自動微分テンソルネットワーク(ADTN)にエンコーディングすることで、NNを大幅に圧縮する手法を提案した。
具体的には以下の通り:
NN層の変分パラメータをADTNの収縮によって表現する。ADTNは指数的に少ないパラメータを持つ深い構造を持つ。
ADTNのパラメータは自動微分を用いて最適化される。これにより、元のNNの精度を維持しつつ大幅な圧縮が可能となる。
FC-2、LeNet-5、AlexNet、ZFNet、VGG-16などの有名なNNモデルとMNIST、CIFAR-10、CIFAR-100データセットを用いて提案手法の性能を検証した。
例えば、VGG-16の2つの全結合層(約107個のパラメータ)を2つのADTNで424個のパラメータに圧縮し、精度は90.17%から91.74%に向上した。
過剰パラメータ化、圧縮順序、忠実性などの重要な問題についても議論した。
提案手法は、ニューラルネットワークの変分パラメータを表現する際に、従来の多次元配列よりもテンソルネットワークが非常に効率的であることを示唆している。
Stats
VGG-16の2つの全結合層(約107個のパラメータ)を2つのADTNで424個のパラメータに圧縮し、精度は90.17%から91.74%に向上した。
AlexNetとZFNetの最大2つの畳み込み層(約106個と105個のパラメータ)を324個のパラメータのADTNで圧縮した。
Quotes
"ニューラルネットワーク(NN)は、高度な機械学習タスクのための非常に非線形なマッピングを含む一般的に多数の変分パラメータを持つ。"
"我々の提案するADTNスキームは、NN層の変分パラメータを指数的に少ないパラメータを持つTNにエンコーディングすることで、NNを大幅に圧縮することができる。"
"我々の結果は、変分パラメータを表現する際に、従来の多次元配列よりもテンソルネットワークが非常に効率的であることを示唆している。"