이 연구는 바이트-페어 인코딩(BPE)이 텍스트와 다양한 악기편성의 음악에 어떻게 적용되는지 분석한다.
먼저, BPE를 통해 생성된 토큰의 통계적 특성을 비교한다. 텍스트와 음악 데이터 간 토큰 빈도와 길이 분포에 차이가 있음을 확인했다. 특히 악기편성에 따라 토큰의 특성이 달라지는데, 단성 음악의 토큰이 다성 음악보다 길고 화성적 정보를 더 많이 포함하는 것으로 나타났다.
이어서 BPE가 음악적 구절 분할 성능에 미치는 영향을 단성 및 다성 음악 데이터셋에서 실험적으로 평가했다. 다성 음악에서는 BPE 적용이 성능 향상으로 이어졌지만, 단성 음악에서는 BPE 병합 횟수에 따라 성능이 달라졌다. 이는 BPE가 단성 및 다성 음악의 특성을 다르게 포착하기 때문인 것으로 분석된다.
결과적으로 BPE는 악기편성에 따라 다른 특성을 보이며, 이는 음악 분석 및 생성 과제에 영향을 미칠 수 있다. 향후 연구에서는 초기 토큰화 방식이 BPE 성능에 미치는 영향을 추가로 탐구할 필요가 있다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Dinh-Viet-To... lúc arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01448.pdfYêu cầu sâu hơn