본 연구에서는 신경망의 변분 매개변수를 지수적으로 적은 매개변수를 가진 자동 미분 가능한 텐서 네트워크(ADTN)로 인코딩하여 크게 압축하는 일반적인 압축 방법을 제안합니다.
ADTN은 다층 구조로 이루어져 있으며, 각 층은 4차원 텐서로 표현됩니다. ADTN의 전체 구조를 수축하면 원래 신경망의 변분 매개변수 텐서를 얻을 수 있습니다. 이 과정은 자동 미분이 가능하므로 최적화를 통해 압축된 신경망의 성능을 향상시킬 수 있습니다.
제안된 ADTN 압축 방법을 FC-2, LeNet-5, AlexNet, ZFNet, VGG-16 등 다양한 신경망 모델과 MNIST, CIFAR-10, CIFAR-100 데이터셋에 적용하여 우수한 압축 성능을 보였습니다. 예를 들어, VGG-16의 두 개의 선형 층을 약 107개의 매개변수에서 424개의 매개변수를 가진 두 개의 ADTN으로 압축하였고, CIFAR-10 데이터셋의 테스트 정확도가 90.17%에서 91.74%로 향상되었습니다.
추가적으로 과적합 및 과소적합 문제, 압축 순서, 압축 충실도 등에 대해 분석하였습니다. 결과적으로 ADTN은 신경망의 변분 매개변수를 효율적으로 압축할 수 있는 우수한 수학적 구조임을 보여줍니다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yong Qing,Ke... kl. arxiv.org 05-06-2024
https://arxiv.org/pdf/2305.06058.pdfDybere Forespørgsler