본 연구는 실시간 피아노 음악 전사를 위한 새로운 CRNN 모델을 제안한다. 주요 내용은 다음과 같다:
주파수 조건부 FiLM 레이어를 CNN 모듈에 추가하여 주파수 차원의 특징 추출 능력을 향상시켰다. 이를 통해 저/고음역대의 음향 특성 차이를 효과적으로 모델링할 수 있다.
피치별 LSTM을 도입하여 각 피치에 대한 음표 상태 시퀀스 모델링에 초점을 맞추었다. 이는 모델 크기를 크게 줄이면서도 성능 저하를 최소화할 수 있었다.
음표 지속 시간과 속도 정보를 재귀 컨텍스트에 추가하여 음표 오프셋 예측 성능을 향상시켰다.
제안된 두 가지 모델(PAR, PARCompact)은 기존 최신 모델 수준의 성능을 달성하면서도 모델 크기를 크게 줄일 수 있었다. 또한 실시간 추론이 가능하도록 설계되었다. 다양한 실험을 통해 개별 구성 요소의 효과를 검증하고, 모델 크기와 지연 시간의 관계를 분석하였다. 또한 다양한 피아노 데이터셋에 대한 일반화 성능도 확인하였다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Taegyun Kwon... às arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06818.pdfPerguntas Mais Profundas