본 연구 논문에서는 심층 신경망(DNN) 압축 및 성능 향상에 중요한 기술인 지식 증류(KD)에서 발생하는, 더 강력한 교사 모델이 반드시 더 강력한 학생 모델로 이어지지 않는 문제를 다룹니다. 저자들은 KL-기반 KD 방법이 학생 모델의 클래스 간 관계를 암묵적으로 변경하여 결정 경계를 더 복잡하고 모호하게 만들어 모델의 정확도와 일반화 능력을 저하시킬 수 있음을 실험적으로 발견했습니다.
이 문제를 해결하기 위해 저자들은 학생 모델이 교사 모델의 출력에서 확률 값뿐만 아니라 클래스의 상대적 순위도 학습해야 한다고 주장하며, 더 강력한 교사 모델에서 더 효율적이고 강건한 증류를 달성하기 위해 피어슨 및 스피어만 상관관계 기반 KD 손실을 결합한 새로운 상관관계 매칭 지식 증류(CMKD) 방법을 제안합니다. 또한 샘플의 난이도가 다름을 고려하여 CMKD는 피어슨 기반 손실과 스피어만 기반 손실의 가중치를 동적으로 조정합니다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Wenqi Niu, Y... a las arxiv.org 10-10-2024
https://arxiv.org/pdf/2410.06561.pdfConsultas más profundas