Core Concepts
본 논문에서는 청각, 시각, 시청각 음성 인식 작업을 단일 모델로 통합하여 학습하는 방법을 제안하며, 이를 통해 개별 모델을 사용하는 것보다 성능이 향상되고, 자기 지도 학습 및 준지도 학습 기법을 통해 레이블이 지정되지 않은 데이터를 효과적으로 활용하는 방법을 제시합니다.
Abstract
통합 음성 인식: 단일 모델로 청각, 시각 및 시청각 입력 처리
Haliassos, A., Mira, R., Chen, H., Landgraf, Z., Petridis, S., & Pantic, M. (2024). Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs. Advances in Neural Information Processing Systems, 38.
본 연구는 기존의 청각 음성 인식(ASR), 시각 음성 인식(VSR), 시청각 음성 인식(AVSR) 모델을 단일 모델로 통합하여 학습하는 방법을 제시하고, 이를 통해 각 작업의 성능을 향상시키는 것을 목표로 합니다.