본 논문에서는 DDSP(Differentiable Digital Signal Processing) 및 Query-by-Example(QbE) 기법을 활용하여 노년층 및 병리학적 음성의 음성 익명화를 수행하는 새로운 음성 변환 방법론인 DDSP-QbE를 제안합니다.
Takin-VC는 하이브리드 콘텐츠 인코더, 컨텍스트 인식 음색 모델링, 그리고 조건부 플로우 매칭 모델을 통해 우수한 음성 변환 성능을 달성합니다.
WHYV는 언어에 구애받지 않고 음성 추출 모델을 다른 언어로 전이할 수 있는 접근법을 제안한다. 주파수 영역 모델링과 게이팅 메커니즘을 통해 화자의 음향 특징을 효과적으로 활용할 수 있다.
본 연구에서는 음성 분석 및 비디오 콘텐츠 제작을 위한 정확한 음소 정렬 모델을 제안한다. 비지도 학습 방식으로 인코딩된 음향 및 언어 임베딩을 사용하여 가능한 경로를 탐색하는 VAE 기반 정렬 모델을 제안한다. 또한 학습 중 국소 최적화를 피하기 위해 그래디언트 어닐링을 적용하고, 풍부하고 자세한 정보를 활용하기 위해 자기 지도 학습 기반 음향 특징과 상태 수준 언어 단위를 도입한다.
본 연구에서는 AI 생성 음성 탐지를 위한 설명 가능한 음소 기반 주요 영역 맵(Phoneme Discretized Saliency Maps, PDSM)을 제안한다. PDSM은 음소 경계를 활용하여 기존 사후 설명 방법보다 더 충실한 설명을 제공하며, 음소 단위로 표현되어 더 이해하기 쉬운 설명을 생성한다.
Speech-Copilot은 작업 분해, 모듈화 및 프로그램 생성을 통해 음성 처리 작업을 효율적으로 수행할 수 있는 새로운 프레임워크이다.
다양한 초저지연 음성 향상 기술을 통일된 프레임워크에서 비교 분석하여 실제 환경에서의 성능을 평가하고 시사점을 제공한다.
최근 자기지도 표현의 발전에도 불구하고 비지도 음성 분할은 여전히 어려운 과제이다. 대부분의 접근법은 자기지도 학습을 통해 음성 표현을 개선하는 데 초점을 맞추지만, 이 논문에서는 Mel 스펙트로그램을 이용한 피크 탐지가 많은 자기지도 접근법보다 우수한 성능을 보인다는 것을 보여준다. 이를 바탕으로 자기지도 표현과 경계 특징을 활용하는 단순한 은닉 마르코프 모델을 제안한다. 실험 결과 이 모델이 이전 접근법보다 일관되게 우수한 성능을 보인다.
MaskSR2는 사전 학습된 자기 지도 학습 모델을 활용하여 음성 인코더를 의미론적으로 학습시킴으로써 기존 MaskSR 모델 대비 단어 오류율을 크게 낮추었다.
제안된 모델은 언어적 내용과 화자 특성으로부터 독립적인 프로소디 정보를 효과적으로 포착하는 이산 잠재 공간을 학습한다.