แนวคิดหลัก
비주얼 정보를 활용하여 다양한 비디오 환경에서 강건한 음성 인식 성능을 달성하는 오디오-비주얼 음성 인식 모델 EVA를 제안한다.
บทคัดย่อ
이 논문에서는 EVA라는 강건한 오디오-비주얼 음성 인식 모델을 제안한다. EVA는 다음과 같은 특징을 가진다:
- 강건한 사전 학습된 음성 인식 모델인 OWSM v3.1을 기반으로 구축되어 일반화 능력이 뛰어나다.
- 전체 프레임의 비주얼 정보를 활용하기 위해 CLIP 비주얼 인코더를 사용하여 강건한 비주얼 특징을 추출한다.
- 사전 학습된 음성 인식 모델의 성능을 유지하면서 비주얼 이해 능력을 향상시키기 위해 혼합 전문가 모듈(Mixture-of-Experts)을 도입한다.
실험 결과, EVA는 다양한 도메인의 데이터셋에서 최신 기술 수준을 능가하는 성능을 보였다. 특히 일상적이고 잡음이 많은 에고센트릭 비디오 데이터셋에서 강건한 성능을 보여주었다. 이는 EVA의 일반화 능력이 뛰어남을 입증한다.
สถิติ
비주얼 정보를 활용하지 않은 모델 대비 Ego4D 데이터셋에서 23.4% 상대적 WER 감소
사전 학습된 음성 인식 모델을 fine-tuning하지 않은 경우 How2 데이터셋에서 133.7% 상대적 WER 증가
คำพูด
"비주얼 정보를 제거하면 특히 Ego4D와 같은 다양하고 잡음이 많은 데이터셋에서 음성 인식 정확도가 크게 저하된다. 이는 다양한 비디오 환경에서 비주얼 정보를 활용하는 것이 필수적임을 보여준다."
"사전 학습된 음성 인식 모델을 fine-tuning하는 것이 가장 큰 성능 향상을 가져왔다. 이는 도메인 간 차이로 인해 사전 학습된 모델을 fine-tuning하는 것이 중요함을 보여준다."