Core Concepts
다중 음원이 동시에 재생될 때 청각적 마스킹을 최소화하여 각 음원을 명확하게 들을 수 있는 자동 믹싱 시스템을 제안한다.
Abstract
이 논문은 다중 트랙 오디오를 위한 음성 향상 시스템을 제안한다. 이 시스템은 청각적 마스킹을 최소화하면서도 여러 명의 동시 화자를 들을 수 있게 한다. 이 시스템은 화상 회의, 게임, 실시간 스트리밍 등 다양한 통신 시나리오에서 사용될 수 있다.
PEAQ(Perceptual Evaluation of Audio Quality) 모델을 사용하여 오디오 신호의 마스킹 정도를 평가한다. 레벨 균형, 이퀄라이제이션, 다이내믹 레인지 압축, 공간화 등 다양한 오디오 효과를 조화 탐색 알고리즘을 통해 반복적으로 최적화하여 마스킹을 최소화한다.
주관적 청취 테스트에서 제안된 시스템은 전문 사운드 엔지니어의 수동 믹스와 경쟁할 수 있으며, 기존 자동 믹싱 시스템보다 우수한 성능을 보였다.
Stats
제안된 시스템은 LUFS 기준에 따라 각 트랙의 음량을 균형있게 조절할 수 있다.
제안된 시스템은 각 트랙의 주파수 스펙트럼을 균형있게 조절하여 다른 트랙의 마스킹을 최소화할 수 있다.
제안된 시스템은 각 트랙의 공간적 위치를 분리하여 청취자가 각 음원을 구분할 수 있도록 한다.
Quotes
"제안된 시스템은 전문 사운드 엔지니어의 수동 믹스와 경쟁할 수 있으며, 기존 자동 믹싱 시스템보다 우수한 성능을 보였다."
"PEAQ 모델을 사용하여 오디오 신호의 마스킹 정도를 평가하고, 조화 탐색 알고리즘을 통해 오디오 효과 매개변수를 반복적으로 최적화하여 마스킹을 최소화한다."