본 연구는 실시간 피아노 음악 전사를 위한 새로운 CRNN 모델을 제안한다. 주요 내용은 다음과 같다:
주파수 조건부 FiLM 레이어를 CNN 모듈에 추가하여 주파수 차원의 특징 추출 능력을 향상시켰다. 이를 통해 저/고음역대의 음향 특성 차이를 효과적으로 모델링할 수 있다.
피치별 LSTM을 도입하여 각 피치에 대한 음표 상태 시퀀스 모델링에 초점을 맞추었다. 이는 모델 크기를 크게 줄이면서도 성능 저하를 최소화할 수 있었다.
음표 지속 시간과 속도 정보를 재귀 컨텍스트에 추가하여 음표 오프셋 예측 성능을 향상시켰다.
제안된 두 가지 모델(PAR, PARCompact)은 기존 최신 모델 수준의 성능을 달성하면서도 모델 크기를 크게 줄일 수 있었다. 또한 실시간 추론이 가능하도록 설계되었다. 다양한 실험을 통해 개별 구성 요소의 효과를 검증하고, 모델 크기와 지연 시간의 관계를 분석하였다. 또한 다양한 피아노 데이터셋에 대한 일반화 성능도 확인하였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問