Conceptos Básicos
음성 검증을 위해 병렬 Transformer와 DFSMN을 결합한 Voice Transformer 모델을 제안하였으며, 이를 통해 지역적 및 전역적 특징을 효과적으로 추출할 수 있었다.
Resumen
이 논문에서는 음성 검증을 위한 새로운 모델인 Voice Transformer(VOT)를 제안한다. VOT는 다중 스케일의 병렬 Transformer와 Deep Feedforward Sequential Memory Network(DFSMN)를 결합하여 음성 특징의 세부 정보를 효과적으로 포착한다.
먼저, 음성 특징 추출기는 멜 필터와 1차원 합성곱을 사용하여 음성의 스펙트럼 특성을 포착한다. 그 다음, 음성 인코더는 메모리 메커니즘이 포함된 Transformer 인코더를 사용하여 음성의 지역적 및 전역적 특징을 모두 효과적으로 캡처한다. 마지막으로, 주의 집중 통계 풀링 계층은 중요한 프레임에 초점을 맞추어 발화 수준의 특징을 형성한다.
또한 어려운 샘플 문제를 해결하기 위해 Additive Angular Margin Focal Loss(AAMF)를 제안하였다. AAMF는 특징 간 거리를 각도 간격으로 변환하고 각도 간격 페널티를 추가하여 클래스 내 특징은 더 가깝게, 클래스 간 특징은 더 멀리 떨어지도록 만든다. 또한 어려운 샘플에 더 많은 주의를 기울이도록 한다.
실험 결과, VOT 모델은 VoxCeleb1 및 CN-Celeb2 데이터셋에서 대부분의 기존 모델을 능가하는 성능을 보였다. 특히 텍스트 독립, 짧은 음성, 크로스 언어, 무제한 조건에서도 우수한 안정성과 일반화 성능을 보였다.
Estadísticas
음성 검증 성능 지표인 Equal Error Rate(EER)이 기존 모델 대비 최대 19.40% 감소하였다.
음성 검증 성능 지표인 Minimum Detection Cost Function(minDCF)이 기존 모델 대비 최대 17.25% 감소하였다.
Citas
"우리는 메모리 메커니즘이 Transformer 모델의 지역적 정보 추출 능력 향상에 기여한다고 믿는다."
"병렬 다중 스케일 구조가 직렬 구조에 비해 향상된 성능을 보이면서도 파라미터 수를 줄일 수 있다는 것을 입증하였다."
"제안한 AAMF 손실 함수와 VOT 모델은 텍스트 독립, 짧은 음성, 크로스 언어, 무제한 조건에서도 우수한 성능을 달성하였다."