核心概念
본 논문에서는 더 강력한 교사 모델로부터 효율적이고 강건한 지식 증류를 달성하기 위해 피어슨 및 스피어만 상관관계 기반 손실 함수를 결합한 새로운 상관관계 매칭 지식 증류(CMKD) 방법을 제안합니다.
摘要
상관관계 매칭 기반 지식 증류
본 연구 논문에서는 심층 신경망(DNN) 압축 및 성능 향상에 중요한 기술인 지식 증류(KD)에서 발생하는, 더 강력한 교사 모델이 반드시 더 강력한 학생 모델로 이어지지 않는 문제를 다룹니다. 저자들은 KL-기반 KD 방법이 학생 모델의 클래스 간 관계를 암묵적으로 변경하여 결정 경계를 더 복잡하고 모호하게 만들어 모델의 정확도와 일반화 능력을 저하시킬 수 있음을 실험적으로 발견했습니다.
이 문제를 해결하기 위해 저자들은 학생 모델이 교사 모델의 출력에서 확률 값뿐만 아니라 클래스의 상대적 순위도 학습해야 한다고 주장하며, 더 강력한 교사 모델에서 더 효율적이고 강건한 증류를 달성하기 위해 피어슨 및 스피어만 상관관계 기반 KD 손실을 결합한 새로운 상관관계 매칭 지식 증류(CMKD) 방법을 제안합니다. 또한 샘플의 난이도가 다름을 고려하여 CMKD는 피어슨 기반 손실과 스피어만 기반 손실의 가중치를 동적으로 조정합니다.
문제 제기: 기존 KL-기반 KD 방법은 교사 모델이 강력해질수록 학생 모델의 성능 향상이 제한되는 문제점을 보입니다.
원인 분석: KL-기반 KD는 학생 모델이 학습한 클래스 간 관계를 암묵적으로 변경하여 결정 경계를 복잡하고 모호하게 만들기 때문입니다.
해결 방안:
학생 모델이 교사 모델 출력의 확률 값뿐만 아니라 클래스의 상대적 순위도 학습하도록 합니다.
피어슨 및 스피어만 상관관계 기반 KD 손실을 결합한 CMKD 방법을 제안합니다.
샘플 난이도에 따라 피어슨 기반 손실과 스피어만 기반 손실의 가중치를 동적으로 조정합니다.
CMKD는 CIFAR-100 및 ImageNet에서 최첨단 성능을 일관되게 달성했습니다.
CMKD는 다양한 교사 아키텍처, 크기 및 기타 KD 방법에 잘 적응합니다.
CMKD는 기존 KD에 비해 모델의 강건성을 향상시킵니다.