المفاهيم الأساسية
뇌파 신호를 활용하여 혼합된 음성 신호에서 관심 화자의 음성을 효과적으로 추출할 수 있는 모델 NeuroSpex를 제안한다.
الملخص
이 연구에서는 뇌파 신호를 활용하여 혼합된 음성 신호에서 관심 화자의 음성을 추출하는 NeuroSpex 모델을 제안한다.
NeuroSpex는 다음과 같은 주요 구성 요소로 이루어져 있다:
- 음성 인코더: 입력 음성 신호를 임베딩으로 변환
- EEG 인코더: EEG 신호를 임베딩으로 변환하여 참조 신호로 활용
- 화자 추출기: 음성 임베딩과 EEG 임베딩을 융합하여 관심 화자의 음성을 추출하는 마스크 생성
- 음성 디코더: 추출된 음성 임베딩을 다시 시간 영역 음성 신호로 복원
실험 결과, NeuroSpex는 다양한 평가 지표에서 기존 모델들을 유의미하게 능가하는 성능을 보였다. 이는 EEG 신호를 효과적으로 활용하여 관심 화자의 음성을 추출할 수 있음을 보여준다.
الإحصائيات
혼합 음성 신호와 관심 화자 음성 신호의 SI-SDR 차이는 평균 20.709 dB이다.
추출된 음성 신호의 PESQ 점수는 평균 2.592이다.
추출된 음성 신호의 STOI 점수는 평균 0.893이다.
اقتباسات
"뇌파 신호는 관심 화자의 음성에 대한 정보를 제공할 수 있으며, 이를 활용하여 혼합 음성 신호에서 관심 화자의 음성을 효과적으로 추출할 수 있다."
"제안된 NeuroSpex 모델은 기존 모델들에 비해 우수한 성능을 보였으며, 이는 EEG 신호와 음성 신호의 효과적인 융합을 통해 달성된 것으로 볼 수 있다."