이 논문은 다중 모달 표현 인식 문제에서 지식 증류 기법을 제안한다. 기존의 지식 증류 방법은 점 대 점 매칭을 사용하여 교사 모델의 국부적 구조 정보를 효과적으로 캡처하지 못했다. 저자들은 이를 해결하기 위해 최적 전송 기반의 구조적 지식 증류 메커니즘을 제안한다.
제안 방법인 PKDOT는 교사 모델의 특징 공간에서 코사인 유사도 행렬을 계산하여 국부적 구조를 캡처한다. 그리고 엔트로피 정규화 최적 전송을 사용하여 교사 모델의 구조적 지식을 학생 모델에 증류한다. 또한 상위 k개의 앵커 포인트를 선택하여 최적 전송 솔루션의 안정성과 희소성을 높인다.
제안 방법은 두 가지 다중 모달 표현 인식 문제, 즉 Biovid 데이터셋의 통증 추정과 Affwild2 데이터셋의 정서 가치/각성 예측 문제에 적용되었다. 실험 결과, 제안 방법은 기존 지식 증류 방법보다 우수한 성능을 보였다. 또한 다양한 모달리티와 융합 아키텍처에 대해 일반화 능력이 있음을 확인했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Muhammad Has... at arxiv.org 04-29-2024
https://arxiv.org/pdf/2401.15489.pdfDeeper Inquiries