核心概念
人間とロボットが同時に話す際に、ロボットの音声を効果的にフィルタリングして人間の音声認識を向上させる方法を提案し、実験結果を通じてその有効性を示した。
要約
この論文では、社会的なロボットPepperの音声とファンノイズが重なった際に、人間の音声を自動的にフィルタリングする方法に焦点を当てています。実験では、Pepper自体の録音された音声、ファンノイズ、およびPepperマイクで記録された人間の音声から構成されるデータセットを使用しました。信号処理アプローチとCRNNアプローチを比較し、低反響環境で信号処理アプローチが最も優れたパフォーマンスを示す一方、CRNNアプローチは反響に対して堅牢であることがわかりました。しかし、両手法とも改善の余地があります。
統計
低反響環境で信号処理アプローチは最良のパフォーマンスを示した。
CRNNアプローチは反響に対して堅牢であることが示された。
引用
"The proposed signal processing-based pipeline without post-filtering was able to improve the ASR ability when the reverberation of the room is weak in real time and the target speech is high pitched or at a relatively high volume."
"The proposed CRNN also showed good robustness to each condition, but the performance was still not satisfactory."