本研究は、OpenAIのWhisperという最先端の音声認識APIを評価したものである。実験の結果、Whisperの約1%の音声認識出力に、入力音声に存在しない文章や文言が含まれる「幻覚」が発生することが明らかになった。これらの幻覚の38%には、暴力的な内容、個人情報の虚偽、信頼性の低い情報源への誘導など、深刻な影響を及ぼす可能性のある内容が含まれていた。
さらに、音声に長い無音区間が含まれる場合や、言語障害を持つ話者の音声を認識する際に、幻覚が発生しやすいことが示された。これらの結果は、Whisperの音声認識出力を実際の意思決定に利用する際の重大な懸念事項となる。
本研究では、Whisperの幻覚発生の原因を分析し、その影響の深刻さを明らかにした。音声認識システムの開発者は、このような問題に対処し、ユーザーに注意喚起を行う必要がある。また、音声認識の精度向上と、特に言語障害を持つ話者への適応性の向上が重要な課題となる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問