Core Concepts
청각 장애인의 음성 특성을 효과적으로 포착하고 이를 기반으로 자동 음성 인식, 화자 식별 및 지능성 평가 시스템을 구축하였다.
Abstract
이 연구는 청각 장애인의 음성 처리를 위한 혁신적인 방법을 제안한다. 주요 내용은 다음과 같다:
감마토네그램이라는 새로운 음성 표현 방식을 제안하였다. 이는 기존 스펙트로그램보다 저주파 영역의 해상도가 높아 청각 장애인의 음성 특성을 더 잘 포착할 수 있다.
전이 학습 기반의 합성곱 신경망을 활용하여 자동 음성 인식, 화자 식별, 지능성 평가 시스템을 구축하였다. 이를 통해 제한된 데이터 환경에서도 우수한 성능을 달성할 수 있었다.
다중 네트워크 기반의 자동 음성 인식 시스템을 제안하였다. 이 시스템은 자동 지능성 평가 모듈을 통해 입력 음성을 적절한 하위 네트워크로 전달하여 전체 성능을 향상시킨다.
실험 결과, 제안된 시스템은 기존 방식 대비 우수한 성능을 보였다. 특히 심각한 청각 장애를 가진 사용자의 음성 처리 성능이 크게 향상되었다. 이는 감마토네그램과 다중 네트워크 아키텍처가 청각 장애인의 음성 특성을 효과적으로 모델링할 수 있음을 보여준다.
Stats
청각 장애인 16명의 평균 단어 인식률은 92.3%였다.
화자 식별 시스템의 평균 정확도는 87.74%였다.
2단계 지능성 평가 시스템의 평균 정확도는 96.47%였다.
Quotes
"청각 장애인의 음성은 일반 음성과 달리 많은 변이성을 가지고 있어 기존 음성 처리 시스템으로는 제대로 작동하지 않는다."
"감마토네그램은 저주파 영역의 해상도가 높아 청각 장애인의 음성 특성을 더 잘 포착할 수 있다."
"다중 네트워크 기반의 자동 음성 인식 시스템은 사용자의 지능성 수준에 따라 적절한 하위 네트워크를 자동으로 선택하여 전체 성능을 향상시킬 수 있다."