Core Concepts
음성 인식 시스템의 MEMS 마이크가 16-22kHz 범위의 근접 초음파를 오디오 스펙트럼으로 변조하여 음성 인식 성능을 저하시키는 취약성을 발견하고, 이를 활용하여 음성 프라이버시를 보호할 수 있는 방안을 제시한다.
Abstract
이 연구는 음성 인식 시스템의 자동 음성 인식(ASR) 알고리즘이 근접 초음파 간섭에 취약하다는 것을 보여준다. 실험 결과에 따르면 16-22kHz 범위의 근접 초음파 노이즈가 MEMS 마이크에 의해 오디오 스펙트럼으로 변조되어 음성 명령의 인식 성능을 크게 저하시킨다.
단순한 음성 명령은 거리에 관계없이 잘 인식되지만, 복잡하거나 정보가 많은 명령은 거리가 멀어질수록 인식률이 낮아진다.
자음 "s", "f", "th"가 포함된 명령은 인식률이 낮은 경향이 있다.
근접 초음파 노이즈가 있을 때 음성 명령의 스펙트로그램이 뭉개져 ASR 시스템이 제대로 인식하지 못하는 것을 확인할 수 있다.
이러한 취약성을 악용하면 음성 프라이버시를 보호할 수 있지만, 긴급 지원 등 중요한 용도의 음성 인식 시스템에 악영향을 줄 수 있다는 점에 유의해야 한다. 향후 연구에서는 이 취약성을 해결하기 위한 ASR 알고리즘 및 마이크 설계 개선 방안을 모색할 필요가 있다.
Stats
음성 명령 인식률이 거리에 따라 크게 달라지는 것을 확인할 수 있다.
1피트 거리에서는 대부분의 명령이 잘 인식되었지만, 3피트와 6피트 거리에서는 복잡한 명령의 인식률이 낮아졌다.
자음 "s", "f", "th"가 포함된 명령은 전반적으로 인식률이 낮았다.