Основные понятия
M-BEST-RQ는 스마트 안경 기반 다채널 음성 처리 작업을 위한 범용 기반 모델로, 대규모 자기 지도 학습을 활용하여 배열 기하학에 독립적인 표현을 학습합니다.
Аннотация
이 논문에서는 M-BEST-RQ라는 다채널 음성 기반 기반 모델을 제안합니다. M-BEST-RQ는 스마트 안경과 같은 다채널 웨어러블 기기를 위해 설계되었으며, 대규모 자기 지도 학습을 통해 배열 기하학에 독립적인 표현을 학습합니다.
M-BEST-RQ의 핵심 구성은 다음과 같습니다:
- 고정 빔포밍기를 사용하여 채널 수에 독립적인 방향 신호를 생성합니다.
- 다채널 확장 BEST-RQ 인코더를 사용하여 자기 지도 학습을 수행합니다.
이 모델은 세 가지 실제 응용 분야에서 평가되었습니다:
- 대화형 자동 음성 인식 (C-ASR): M-BEST-RQ는 2000시간의 레이블 데이터로 학습된 기준 모델보다 우수한 성능을 보였습니다.
- 구면 활성 음원 위치 추정 (S-ASL): M-BEST-RQ는 오디오-비주얼 입력을 사용하는 최신 모델과 동등한 성능을 달성했습니다.
- 안경 착용자 음성 활성화 탐지 (W-VAD): M-BEST-RQ는 기준 모델과 유사한 성능을 보였습니다.
이러한 결과는 M-BEST-RQ가 다양한 스마트 안경 기반 작업에 효과적으로 활용될 수 있음을 보여줍니다.
Статистика
제안된 M-BEST-RQ 모델은 약 96M개의 학습 가능한 매개변수를 가집니다.
대화형 ASR 작업에서 M-BEST-RQ는 8시간의 레이블 데이터로 학습된 모델이 2000시간의 레이블 데이터로 학습된 기준 모델보다 2% 이상 낮은 단어 오류율을 달성했습니다.
구면 활성 음원 위치 추정 작업에서 M-BEST-RQ의 평균 각도 오차는 5.6도로, 오디오-비주얼 입력을 사용하는 최신 모델과 동등한 성능을 보였습니다.
Цитаты
"M-BEST-RQ는 스마트 안경과 같은 다채널 웨어러블 기기를 위해 설계된 최초의 기반 모델입니다."
"M-BEST-RQ는 대화형 ASR 작업에서 2000시간의 레이블 데이터로 학습된 기준 모델보다 우수한 성능을 보였습니다."
"M-BEST-RQ는 오디오-비주얼 입력을 사용하는 최신 모델과 동등한 구면 활성 음원 위치 추정 성능을 달성했습니다."