Core Concepts
이 연구는 NASA 아폴로 임무 통신 녹음에 대한 자동 음성 인식 모델의 하위 그룹별 성능 차이를 분석하여 모델의 강점과 약점을 파악하고자 한다.
Abstract
이 연구는 NASA 아폴로 임무 통신 녹음 데이터셋인 Fearless Steps APOLLO Community Resource를 활용하여 자동 음성 인식 모델의 하위 그룹별 성능 차이를 분석하였다.
- 녹음 데이터의 다양한 메타데이터(신호 대 잡음비, 스펙트럼 균일성, 휴지 시간, 발화 길이 등)를 추출하고, 이를 바탕으로 녹음 데이터를 하위 그룹으로 분류하였다.
- 각 하위 그룹별 자동 음성 인식 모델의 성능(단어 오류율)을 측정하고, 전체 데이터셋 대비 성능 차이(divergence)를 분석하였다.
- 다양한 크기의 Whisper 모델(base, small, medium, large-v3)을 활용하여 영어 전용 모델과 다국어 모델의 성능을 비교하였다.
- 사전 학습된 모델과 fine-tuning된 모델의 하위 그룹별 성능 차이를 분석하였다.
- 모델 크기에 따른 하위 그룹별 성능 차이를 확인하였다.
- 다국어 모델과 영어 전용 모델의 하위 그룹별 성능 차이를 분석하였다.
이를 통해 아폴로 임무 통신 녹음에 대한 자동 음성 인식 모델의 강점과 약점을 파악하고, 모델 개선을 위한 방향성을 제시하고자 한다.
Stats
신호 대 잡음비가 높고 스펙트럼 균일성이 낮은 녹음은 일반적으로 더 나은 성능을 보인다.
화자에 따라 모델의 인식 성능이 크게 달라진다.
Quotes
"Fine-tuning 을 통해 전반적인 성능이 향상되었으며, 하위 그룹 간 성능 차이도 줄어들었다."
"더 큰 모델이 항상 더 나은 성능을 보이는 것은 아니며, 하위 그룹에 따라 성능 차이가 존재한다."
"다국어 모델이 일부 하위 그룹에서는 영어 전용 모델보다 성능이 낮게 나타났다."