Core Concepts
청각 보조기기 사용자의 음성 명료도를 향상시키기 위해 저지연 및 제한된 계산 자원을 가진 심층 신경망 기반 음성 향상 기법을 제안하고 평가하였다. 국소적 간섭음원이 있는 환경에서 양이 통신을 활용한 심층 신경망 기반 접근법이 기존 기법보다 우수한 성능을 보였다.
Abstract
이 연구는 청각 보조기기 사용자의 음성 명료도 향상을 위해 저지연 및 제한된 계산 자원을 가진 심층 신경망 기반 음성 향상 기법을 제안하고 평가하였다.
제안된 접근법은 양이 통신을 활용한 GCFSnet 모델과 단일 채널 GCFSnet 모델을 포함한다. 이 모델들은 실시간 처리와 제한된 계산 자원 요구 사항을 만족한다.
제안된 모델들과 기존의 적응형 차동 마이크 처리(ADM) 및 고정 바이노럴 MVDR 빔포밍 기법을 두 가지 복잡한 음향 환경에서 평가하였다.
첫 번째 환경은 전면의 목표 화자와 좌우 60도 방향의 두 개의 간섭 화자로 구성되었다.
두 번째 환경은 전면의 목표 화자와 확산 카페테리아 소음으로 구성되었다.
주관적 평가에서 양이 GCFSnet은 국소적 간섭음원이 있는 환경에서 가장 우수한 성능을 보였다. 확산 소음 환경에서는 모든 향상 기법이 유사한 성능을 보였다.
객관적 평가 지표인 HASPI와 MSBG+MBSTOI는 주관적 평가 결과와 유사한 패턴을 보였으며, 청자 개인 수준에서는 중간 정도의 상관관계를, 중앙값 수준에서는 매우 강한 상관관계를 보였다.
제안된 심층 신경망 모델은 훈련 데이터와 실험 환경의 차이에도 불구하고 우수한 일반화 성능을 보였다.
Stats
전면 목표 화자와 좌우 60도 방향의 두 개 간섭 화자 환경에서 양이 GCFSnet은 기존 기법 대비 2.6 dB 낮은 SRT80을 달성하였다.
확산 소음 환경에서 MVDR은 1.6 dB, 양이 GCFSnet은 1.8 dB의 SRT80을 보였다.
Quotes
"청각 보조기기 사용자의 음성 명료도를 향상시키기 위해 저지연 및 제한된 계산 자원을 가진 심층 신경망 기반 음성 향상 기법을 제안하고 평가하였다."
"양이 GCFSnet은 국소적 간섭음원이 있는 환경에서 가장 우수한 성능을 보였다."