核心概念
SongTrans 모델은 노래 가사와 음표를 동시에 전사하고 정렬할 수 있는 통합 모델이다.
要約
이 논문은 노래 가사와 음표 전사 및 정렬을 위한 SongTrans 모델을 제안한다. 기존의 도구들은 전처리 과정이 필요하거나 단일 작업만 수행할 수 있었지만, SongTrans는 이러한 한계를 극복하였다.
SongTrans 모델은 두 가지 모듈로 구성된다:
자기회귀 모듈: 가사, 각 단어의 지속 시간, 음표 개수를 예측한다.
비자기회귀 모듈: 각 음표의 음높이와 지속 시간을 예측한다.
실험 결과, SongTrans는 기존 가사 전사 모델보다 월등한 성능을 보였고, 음표 전사 모델과도 경쟁력 있는 결과를 보였다. 또한 SongTrans는 가사와 음표를 동시에 정렬할 수 있는 최초의 모델이다.
추가로, SongTrans는 다양한 환경(반주 포함, 묵음 구간 포함)에서도 효과적으로 작동하는 것으로 나타났다.
統計
가사 전사 WER: 10.81%
음표 개수 예측 MAE: 0.1438
음높이 예측 WER: 22.45%
음길이 예측 MAE: 16.17%