핵심 개념
사전 훈련된 다국어 음성 모델인 Whisper는 서로 다른 언어의 발화를 공유 의미 공간에 매핑하는 언어 불변 임베딩을 생성하여 제한된 데이터로도 새로운 언어로 음성 번역 기능을 확장할 수 있습니다.
초록
다국어 음성 번역을 위한 Whisper 모델의 교차 언어 전이 학습
본 연구 논문에서는 사전 훈련된 다국어 음성 모델인 Whisper를 사용하여 제한된 데이터 환경에서 다국어 음성 번역 기능을 확장하는 방법을 심층적으로 분석합니다. 저자들은 Whisper의 인코더가 서로 다른 언어의 발화를 공유 의미 공간에 매핑하는 언어 불변 임베딩을 생성한다는 것을 입증하며, 이러한 특성을 활용하여 새로운 언어로의 음성 번역 능력을 효과적으로 확장할 수 있음을 보여줍니다.
Whisper 모델 분석:
Whisper는 음성 인식, 음성 번역, 음성 활동 감지 및 언어 식별과 같은 다양한 작업을 위해 약하게 감독되는 방식으로 훈련된 다국어 음성 모델입니다.
인코더는 음향적 특징에서 의미 정보를 추출하고, 디코더는 인코더 출력을 기반으로 토큰을 생성하는 언어 모델 역할을 합니다.
언어 불변 임베딩:
저자들은 Whisper의 인코더가 생성한 오디오 표현을 분석하기 위해 음성-음성 검색 작업을 활용하여 서로 다른 언어의 발화가 공유 의미 공간에 매핑된다는 것을 보여줍니다.
이러한 언어 불변 임베딩은 음성 번역에서 여러 소스 언어를 처리하는 데 중요한 이점을 제공합니다.
새로운 타겟 언어로의 확장:
Whisper는 원래 영어로 음성을 번역하도록 설계되었지만, 디코더는 훈련 과정에서 다양한 언어와 해당 토큰에 노출되었습니다.
본 연구에서는 Whisper의 잠재력을 조사하기 위해 영어를 넘어 다른 언어로 번역하는 성능을 평가합니다.
중국어를 예시로 사용하여 Whisper를 새로운 타겟 언어로 번역하도록 확장하는 방법을 제시합니다.
영어-중국어 음성 번역 데이터를 사용하여 Whisper를 미세 조정하면 FLEURS 및 CoVoST 데이터 세트에서 영어-중국어 번역이 향상되었습니다.
프랑스어, 독일어 및 일본어 발화에 대한 테스트 결과 미세 조정을 통해 이러한 언어에 대한 BLEU 및 COMET 점수도 향상되었습니다.
새로운 소스 언어로의 확장:
Whisper의 훈련 중에 볼 수 없었던 저자원 언어는 모델이 훈련된 언어와 다른 어휘 표현을 가지고 있지만 유사한 음향적 특징을 공유할 수 있습니다.
본 연구에서는 이러한 저자원 언어에 대한 음성 임베딩도 모델의 공유 의미 공간 내에 속하는지 여부를 탐구합니다.
실험 결과 Whisper가 훈련 중에 명시적으로 포함되지 않은 언어에 대해서도 검색 및 번역 작업에서 성능을 향상시키는 교차 언어 정렬을 보여줍니다.
연구의 중요성:
본 연구는 사전 훈련된 다국어 음성 모델의 교차 언어 전이 학습 능력을 강조하고, 제한된 데이터 환경에서 다국어 음성 번역 시스템을 개발하는 데 중요한 의미를 갖습니다. 특히 Whisper 모델의 언어 불변 임베딩은 다양한 언어에서 음성 번역 성능을 향상시키는 데 크게 기여할 수 있음을 보여줍니다.
통계
Whisper large-v2 모델은 다른 모델 크기에 비해 우수한 성능을 보여 다국어 음성 번역 실험에 사용되었습니다.
FLEURS 데이터 세트에서 5개 언어(영어, 프랑스어, 독일어, 중국어, 일본어)를 선택하여 실험을 진행했습니다.
Whisper의 새로운 타겟 언어로의 번역 능력을 확장하기 위해 CoVoST 데이터 세트에서 추출한 총 428시간 분량의 영어-중국어 하위 집합을 사용하여 지도 학습을 수행했습니다.
Whisper에서 지원하지 않는 6개 언어(Kabuverdianu, Asturian, Cebuano, Kyrgyz, Sorani Kurdish, Irish)를 선택하여 새로운 소스 언어에 대한 실험을 진행했습니다.
모든 20개 언어 쌍에서 SeqSim은 0.2%의 무작위 기준선에 비해 현저히 높은 재현율을 달성했습니다.
영어, 프랑스어, 독일어와 같이 모두 인도유럽어족에 속하는 언어 간의 검색에서 더 높은 성능을 보였습니다.
Whisper large-v2 모델의 인코더 출력을 사용한 음성-음성 검색에서 마지막 인코더 계층의 출력이 지속적으로 최상의 검색 성능을 달성했습니다.
가장 작은 모델(39M 매개변수)에서도 재현율이 0.2%의 무작위 기준선보다 훨씬 높았습니다.
Whisper large 모델의 경우 v2 모델이 다른 두 버전에 비해 최상의 성능을 보였습니다.
저자원 언어인 바스크어(eu)를 제외하고 제안된 제로샷 검색 방법은 기준선을 능가했으며 평균 R@1은 75.3%였습니다.