본 연구 논문에서는 심층 신경망(DNN) 압축 및 성능 향상에 중요한 기술인 지식 증류(KD)에서 발생하는, 더 강력한 교사 모델이 반드시 더 강력한 학생 모델로 이어지지 않는 문제를 다룹니다. 저자들은 KL-기반 KD 방법이 학생 모델의 클래스 간 관계를 암묵적으로 변경하여 결정 경계를 더 복잡하고 모호하게 만들어 모델의 정확도와 일반화 능력을 저하시킬 수 있음을 실험적으로 발견했습니다.
이 문제를 해결하기 위해 저자들은 학생 모델이 교사 모델의 출력에서 확률 값뿐만 아니라 클래스의 상대적 순위도 학습해야 한다고 주장하며, 더 강력한 교사 모델에서 더 효율적이고 강건한 증류를 달성하기 위해 피어슨 및 스피어만 상관관계 기반 KD 손실을 결합한 새로운 상관관계 매칭 지식 증류(CMKD) 방법을 제안합니다. 또한 샘플의 난이도가 다름을 고려하여 CMKD는 피어슨 기반 손실과 스피어만 기반 손실의 가중치를 동적으로 조정합니다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Wenqi Niu, Y... klo arxiv.org 10-10-2024
https://arxiv.org/pdf/2410.06561.pdfSyvällisempiä Kysymyksiä