이 논문은 오디오 텍스처의 제어 가능한 생성을 위한 예시 기반 프레임워크를 제안한다. 오디오 텍스처는 여러 유사한 음향 이벤트의 중첩으로 생성되는 소리이다. 일반적으로 이러한 소리의 제어 가능한 생성은 의미적으로 레이블링된 데이터를 사용하여 생성 모델을 조건화하여 달성된다. 그러나 오디오 텍스처의 경우 대규모 의미적으로 레이블링된 데이터세트가 부족하다.
따라서 저자들은 레이블링된 데이터 없이도 제어 가능한 생성을 달성할 수 있는 방법을 개발했다. 저자들은 사용자 정의 의미 속성을 기반으로 StyleGAN의 잠재 공간에서 유도 벡터를 찾는 예시 기반 프레임워크를 제안한다. 이 프레임워크는 StyleGAN의 의미적으로 분리된 잠재 공간을 활용하여 사용자 정의 의미 속성에 대한 유도 벡터를 찾는다. 사용자가 제공한 합성 예시를 사용하여 해당 속성의 존재 또는 부재를 나타내고, 이를 통해 StyleGAN의 잠재 공간에서 해당 속성을 제어할 수 있는 유도 벡터를 추론한다.
실험 결과, 제안된 프레임워크는 사용자 정의 및 지각적으로 관련성 있는 유도 벡터를 찾아 오디오 텍스처의 제어 가능한 생성을 달성할 수 있음을 보여준다. 또한 저자들은 의미 속성 전송과 같은 다른 작업에 프레임워크를 적용하는 것을 보여준다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor