Core Concepts
음성 데이터 부족 문제를 해결하기 위해 텍스트-음성 변환 기술을 활용하여 강건한 자동 음성 이해 모델을 개발하였다.
Abstract
이 연구는 자동 음성 이해(ASU) 모델 학습 시 음성 데이터 부족 문제를 해결하기 위해 텍스트-음성 변환 기술을 활용하는 TI-ASU 기법을 제안한다.
주요 내용은 다음과 같다:
- 음성 데이터가 부족한 상황에서도 성능 향상을 위해 텍스트-음성 변환 모델을 활용하여 합성 음성 데이터를 생성하고 이를 학습에 활용하는 TI-ASU 기법을 제안하였다.
- 다양한 음성 데이터 부족 상황(훈련 데이터 내 부족, 전체 데이터 내 부족)에서 TI-ASU의 성능을 평가하였으며, 기존 방식 대비 감정 인식, 의도 분류, 감성 분석 등의 과제에서 성능 향상을 확인하였다.
- 합성 음성 데이터 생성 시 다양한 텍스트-음성 변환 모델을 활용하여 데이터 다양성을 높이는 것이 중요함을 보였다.
- 대규모 언어 모델(LLM)을 활용한 텍스트 데이터 증강 기법을 TI-ASU에 적용하였으나, 합성 음성 품질 향상에는 한계가 있음을 확인하였다.
Stats
음성 데이터가 95% 부족한 상황에서도 TI-ASU가 실제 음성 데이터로 학습한 모델 대비 감정 인식, 의도 분류 등에서 성능 향상을 보였다.
음성 데이터가 50% 부족한 상황에서도 TI-ASU가 실제 음성 데이터로 학습한 모델과 유사한 성능을 보였다.
Quotes
"음성 데이터 부족 문제를 해결하기 위해 텍스트-음성 변환 기술을 활용하여 강건한 자동 음성 이해 모델을 개발하였다."
"다양한 텍스트-음성 변환 모델을 활용하여 합성 음성 데이터의 다양성을 높이는 것이 중요하다."