Core Concepts
NES 게임 음악과 게임플레이 영상을 짝지은 새로운 데이터셋 NES-VMDB를 소개하고, 이를 활용한 음악 생성 모델의 기초 실험 결과를 제시한다.
Abstract
NES-VMDB는 389개 NES 게임의 98,940개 게임플레이 영상과 이에 대응되는 4,070개의 음악 MIDI 파일로 구성된 데이터셋이다.
영상과 음악 파일을 자동으로 매칭하기 위해 오디오 지문 알고리즘을 사용했다.
이 데이터셋을 활용해 Controllable Music Transformer(CMT) 모델을 기반으로 한 기초 음악 생성 실험을 수행했다.
음악 구조 지표를 통해 평가한 결과, 영상 정보를 활용한 조건부 CMT 모델이 무조건적인 모델보다 인간 작곡과 더 유사한 음악을 생성했다.
또한 게임 장르 분류기를 통해 조건부 CMT 모델이 게임플레이 영상과 게임 장르 간의 상관관계를 학습할 수 있음을 확인했다.
이 결과는 NES-VMDB 데이터셋이 게임 음악 생성 연구에 유용할 수 있음을 보여준다.
Stats
이 데이터셋은 총 98,940개의 15초 길이 게임플레이 영상과 4,070개의 MIDI 음악 파일로 구성되어 있다.
각 영상은 389개 NES 게임에서 추출되었으며, 평균 225.32개의 영상 클립이 게임당 존재한다.
음악 파일은 NES-MDB 데이터셋에서 추출되었으며, 이 중 4,070개가 8초 이상의 완전한 음악 작품으로 간주되었다.