核心概念
음악 신호의 주파수 특성을 효과적으로 모델링하여 피아노 전사 성능을 향상시키고 모델 크기를 줄이는 것이 핵심 아이디어이다.
摘要
이 논문은 고해상도 피아노 전사 시스템의 한계를 해결하기 위해 제안된 방법을 소개한다.
첫째, 입력 표현으로 Constant-Q Transform (CQT)를 사용하여 음악 신호에 더 잘 적응할 수 있도록 하였다.
둘째, 두 가지 새로운 아키텍처를 설계하였다:
- 확장된 합성곱 신경망(CRNN)에 확장된 합성곱을 적용한 모델
- CRNN 인코더와 비자기회귀 Transformer 디코더로 구성된 인코더-디코더 모델
실험 결과, 제안된 모델들은 기존 고해상도 시스템에 비해 일관되게 향상된 성능을 보였으며, 모델 크기도 크게 감소하였다. 이를 통해 자원 소모 없이도 우수한 전사 성능을 달성할 수 있음을 보여주었다.
統計資料
제안된 HRplus 모델은 기존 고해상도 모델 대비 약 7배 작은 2.7백만 개의 파라미터를 사용한다.
제안된 HRplus-hybrid 모델은 기존 고해상도 모델 대비 약 22배 작은 0.9백만 개의 파라미터를 사용한다.
引述
"음악 신호의 주파수 특성을 효과적으로 모델링하여 피아노 전사 성능을 향상시키고 모델 크기를 줄이는 것이 핵심 아이디어이다."
"제안된 모델들은 기존 고해상도 시스템에 비해 일관되게 향상된 성능을 보였으며, 모델 크기도 크게 감소하였다."