Conceitos essenciais
회화에 담긴 감정을 바탕으로 음악을 생성하는 시스템을 개발하였다. 이를 통해 시각 예술과 청각 예술의 융합을 실현하고, 시각 장애인의 접근성을 높이며 교육 및 치료 분야에서의 활용 가능성을 제시한다.
Resumo
이 연구는 회화에 담긴 감정을 바탕으로 음악을 생성하는 시스템을 제안한다. 이를 위해 다음과 같은 접근법을 사용하였다:
- 이미지 감정 분류 모델: ResNet50 기반의 분류 모델을 사용하여 회화에 담긴 감정을 라벨링한다.
- 이미지 설명 모델: BLIP 모델을 사용하여 회화에 대한 감정 기반 설명을 생성한다.
- 언어 모델: Falcon 1B 모델을 사용하여 이미지 설명을 음악 관련 용어로 확장한다.
- 음악 생성 모델: 다양한 텍스트 입력을 활용하여 MusicGen 모델을 fine-tuning하여 감정에 부합하는 음악을 생성한다.
이 시스템은 회화와 음악의 융합을 실현하여 시각 장애인의 접근성을 높이고, 교육 및 치료 분야에서의 활용 가능성을 제시한다. 객관적 평가 지표를 통해 생성된 음악의 품질, 다양성, 노이즈 등을 확인하였으며, 점진적인 모델 개선을 통해 성능을 향상시켰다.
Estatísticas
회화와 음악의 감정적 연관성을 바탕으로 1,200개의 회화-음악 쌍 데이터셋을 구축하였다.
생성된 음악의 Frechet Audio Distance(FAD)는 5.06으로 낮은 수준을 보였다.
생성된 음악과 텍스트 설명의 유사도를 나타내는 CLAP 점수는 0.11로 높은 수준을 보였다.
생성된 음악의 Total Harmonic Distortion(THD) 점수는 1.92로 낮은 수준의 왜곡을 나타냈다.
Citações
"Art is not what you see but what you make others see." - Edgar Degas