Centrala begrepp
EEGを利用して複雑な多話者環境における目標話者の音声を抽出する手法を提案する。
Sammanfattning
本研究では、脳波(EEG)信号を補助モダリティとして利用し、聴覚に着目した音声強調手法を提案している。具体的には以下の3点を行っている:
時間的特徴を効果的に捉えるためのWeighted Multi-Dilation Temporal Convolutional Network (WD-TCN)を新たに設計した。これにより、従来のConv-TasNetベースのモデルよりも優れた性能を示した。
EEGチャンネルの幾何学的制約を考慮したチャンネル選択手法(GC-ConvRS)を提案した。これにより、ヘッドフォン型の聴覚デバイスへの統合を考慮しつつ、必要最小限のEEGチャンネルを選択できる。
公開データセットを用いた評価実験の結果、提案手法がベースラインよりも優れた音声強調性能を示すことを確認した。また、GC-ConvRSによるチャンネル選択では、性能の大幅な低下はなく、一部のEEGチャンネルが音声知覚に関係ないことが示された。
Statistik
提案手法のWD-TCNは、従来のBASENモデルよりもSI-SDRで1.24 dB、PESQで0.15、STOIで0.02高い性能を示した。
GC-ConvRSによりEEGチャンネル数を30から18に削減しても、SI-SDRは12.69 dBと高い性能を維持できた。
Citat
"EEGを利用して複雑な多話者環境における目標話者の音声を抽出する手法を提案する。"
"提案手法のWD-TCNは、従来のBASENモデルよりも優れた性能を示した。"
"GC-ConvRSによりEEGチャンネル数を削減しても、高い音声強調性能を維持できた。"