Core Concepts
사용자 정의 의미 속성을 기반으로 StyleGAN의 잠재 공간에서 유도 벡터를 찾아 오디오 텍스처를 제어할 수 있는 예시 기반 프레임워크를 제안한다.
Abstract
이 논문은 오디오 텍스처의 제어 가능한 생성을 위한 예시 기반 프레임워크를 제안한다. 오디오 텍스처는 여러 유사한 음향 이벤트의 중첩으로 생성되는 소리이다. 일반적으로 이러한 소리의 제어 가능한 생성은 의미적으로 레이블링된 데이터를 사용하여 생성 모델을 조건화하여 달성된다. 그러나 오디오 텍스처의 경우 대규모 의미적으로 레이블링된 데이터세트가 부족하다.
따라서 저자들은 레이블링된 데이터 없이도 제어 가능한 생성을 달성할 수 있는 방법을 개발했다. 저자들은 사용자 정의 의미 속성을 기반으로 StyleGAN의 잠재 공간에서 유도 벡터를 찾는 예시 기반 프레임워크를 제안한다. 이 프레임워크는 StyleGAN의 의미적으로 분리된 잠재 공간을 활용하여 사용자 정의 의미 속성에 대한 유도 벡터를 찾는다. 사용자가 제공한 합성 예시를 사용하여 해당 속성의 존재 또는 부재를 나타내고, 이를 통해 StyleGAN의 잠재 공간에서 해당 속성을 제어할 수 있는 유도 벡터를 추론한다.
실험 결과, 제안된 프레임워크는 사용자 정의 및 지각적으로 관련성 있는 유도 벡터를 찾아 오디오 텍스처의 제어 가능한 생성을 달성할 수 있음을 보여준다. 또한 저자들은 의미 속성 전송과 같은 다른 작업에 프레임워크를 적용하는 것을 보여준다.
Stats
오디오 텍스처 생성에 StyleGAN2를 사용했으며, 잠재 공간의 차원은 128로 설정했다.
오디오 인코더는 ResNet-34 아키텍처를 사용했으며, 진폭 임계값 처리를 적용했다.
Gaver 합성기를 사용하여 의미 속성 클러스터링을 위한 합성 오디오 예시를 생성했다.
Quotes
"사용자 정의 의미 속성을 기반으로 StyleGAN의 잠재 공간에서 유도 벡터를 찾는 예시 기반 프레임워크를 제안한다."
"실험 결과, 제안된 프레임워크는 사용자 정의 및 지각적으로 관련성 있는 유도 벡터를 찾아 오디오 텍스처의 제어 가능한 생성을 달성할 수 있음을 보여준다."