핵심 개념
음성 감정 인식 성능 향상과 효율성 제고를 위해 과제 적응 사전 학습과 능동 학습 기반 미세 조정 프레임워크를 제안한다.
초록
이 논문은 음성 감정 인식(SER) 성능 향상과 효율성 제고를 위한 새로운 프레임워크인 AFTER를 제안한다.
첫째, 사전 학습된 음성 인식 모델과 SER 과제 간의 정보 격차를 줄이기 위해 과제 적응 사전 학습(TAPT) 방법을 사용한다.
둘째, 능동 학습(AL) 기법을 활용하여 가장 정보가 풍부하고 다양한 샘플을 선별적으로 미세 조정에 사용함으로써 시간 소모를 크게 줄인다.
실험 결과, AFTER는 기존 방법 대비 8.45%의 정확도 향상과 79%의 시간 소모 감소를 달성했다. 추가 실험을 통해 AFTER의 효과와 다양한 실제 시나리오에 대한 적용 가능성을 확인했다.
통계
AFTER는 기존 방법 대비 IEMOCAP 데이터셋에서 UA 2.38%, WA 0.36% 향상을 달성했다.
AFTER는 Merged 데이터셋에서 UA 8.45%, WA 4.12% 향상을 달성했다.
AFTER는 Merged-2 데이터셋에서 UA 8.30%, WA 5.84% 향상을 달성했다.
인용구
"현재 방법들은 사전 학습된 음성 인식 과제와 하위 SER 과제 간의 정보 격차를 간과하여 최적의 성능을 달성하지 못한다."
"실제 세계 시나리오에는 많은 이질적이고 노isy한 데이터가 포함되어 있어 이러한 방법들의 적용이 어렵다."
"AFTER는 과제 적응 사전 학습과 능동 학습 기반 미세 조정을 통해 성능 향상과 효율성 제고를 달성한다."